k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。其中,在数理化方面取得了很不错的成绩,完全超越其他SOTA级别模型 - OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。关于「Kimi 视觉思考版」这一强化学习下的新势力选手:可以完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。w6Z喜好网-记录每日喜好的科技时尚娱乐生活
再概括下 k1 视觉思考模型的训练过程w6Z喜好网-记录每日喜好的科技时尚娱乐生活
1、训练阶段划分:本质上还是预训练及基于预训练模型后的强化学习后训练,这两个阶段w6Z喜好网-记录每日喜好的科技时尚娱乐生活
2、基础模型特点w6Z喜好网-记录每日喜好的科技时尚娱乐生活
- 重点优化字符识别能力w6Z喜好网-记录每日喜好的科技时尚娱乐生活
- 在多个基准测试集上取得卓越成绩:如OCRBench:903分(SOTA);w6Z喜好网-记录每日喜好的科技时尚娱乐生活
3、强化学习后训练 - 划重点:强化学习后训练在数据质量和学习效率方面做了进一步优化w6Z喜好网-记录每日喜好的科技时尚娱乐生活
4、科学测试集创新w6Z喜好网-记录每日喜好的科技时尚娱乐生活
- 自主构建 Science Vista 测试集:覆盖不同难度的数理化图片题目;其分布与用户需求匹配w6Z喜好网-记录每日喜好的科技时尚娱乐生活
w6Z喜好网-记录每日喜好的科技时尚娱乐生活
以下是Kimi官方的解数学题的demo:w6Z喜好网-记录每日喜好的科技时尚娱乐生活
w6Z喜好网-记录每日喜好的科技时尚娱乐生活
w6Z喜好网-记录每日喜好的科技时尚娱乐生活
除了数学能力,Kimi还展示了 k1 视觉思考模型解答经典物理电路题的例子:w6Z喜好网-记录每日喜好的科技时尚娱乐生活
w6Z喜好网-记录每日喜好的科技时尚娱乐生活
看到这里,还留下了一个问题:w6Z喜好网-记录每日喜好的科技时尚娱乐生活
你认为Kimi的「视觉思考模型」,对哪个大模型对手产生的威胁最大呢?w6Z喜好网-记录每日喜好的科技时尚娱乐生活
w6Z喜好网-记录每日喜好的科技时尚娱乐生活