您现在的位置是:首页 > 文章详情

Kimi 发布视觉思考模型 k1

日期:2024-12-16点击:113

Kimi 宣布推出视觉思考模型 k1,基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。

公告称,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。「Kimi 视觉思考版」会完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。

目前,k1 视觉思考模型已陆续上线最新版「Kimi智能助手」的 Android 和 iPhone 手机APP以及网页版 kimi.com。在最新版手机APP或网页版 Kimi+ 页面找到「Kimi 视觉思考版」,即可拍照或传图体验。

“今天我们发布和上线的 k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理,用户体验和效果都达到了新的高度。”

从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力,在 OCRBench 上得到 903 分的当前最好(state-of-the-art)结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9,处于全球第一梯队水平。

不过项目团队也承认,在内部测试中发现了一些 k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。


更多独家技术见解与热门话题讨论,尽在【开源中国 APP】,与数百万开发者一起,随时随地探索技术无限可能。

原文链接:https://www.oschina.net/news/325130
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章