Kimi 发布视觉思考模型 k1
Kimi 宣布推出视觉思考模型 k1,基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。
公告称,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。「Kimi 视觉思考版」会完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。
目前,k1 视觉思考模型已陆续上线最新版「Kimi智能助手」的 Android 和 iPhone 手机APP以及网页版 kimi.com。在最新版手机APP或网页版 Kimi+ 页面找到「Kimi 视觉思考版」,即可拍照或传图体验。
“今天我们发布和上线的 k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理,用户体验和效果都达到了新的高度。”
从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力,在 OCRBench 上得到 903 分的当前最好(state-of-the-art)结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9,处于全球第一梯队水平。
不过项目团队也承认,在内部测试中发现了一些 k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。
更多独家技术见解与热门话题讨论,尽在【开源中国 APP】,与数百万开发者一起,随时随地探索技术无限可能。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源日报 | Fedora项目负责人将离任;微软发布Phi-4;“NVIDIA对中国市场断供”不实;日常AI辅助编程的模型搭配;VSCode 1.96发布
欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.12.13 今日要闻 Fedora 项目负责人 Matthew Miller 即将离任 Fedora 项目负责人 Matthew Miller 称他担任这一职位超过了十年时间,是时候换一个新人接替他继续推动项目前进。 他表示,项目状况良好,有很高的社区参与度,有赞助商的强有力支持,在 Linux 世界备受欢迎,知名度高涨。但要推动项目向更广阔的方向前进,需要一位有新能量和新观念的人。预计明年发布 Fedora Linux 42 时将宣布新负责人人选。 Matthew Miller 还指出,Red Hat 对 Fedora 的支持比以往任何时候都更加强力,他计划帮助它进一步发展,因此他将担任 Red Hat 的 Community Linux Engineering 的一个全职管理职位,Fedora 项目仍然是其日常工作的一部分,他不会离开 Fedora 项目。 微软发布 Phi-4:140 亿参数的顶级小型语言模型 微软今天宣布推出 14B 参数 “最先进” 小型语言模型(SLM)Phi-4。除了传统的语言处...
- 下一篇
OpenAI “吹哨人” Suchir Balaji 离世,年仅 26 岁
近日,前 OpenAI 员工 Suchir Balaji 在旧金山公寓中被发现死亡。 旧金山首席法医办公室方面透露,已确认死者为 26 岁的旧金山人 Suchir Balaji,其死亡方式已确定为自杀。据当地警方称,初步调查中没有发现任何犯罪痕迹。 今年 10 月,Suchir Balaji 曾接受《纽约时报》采访,他表达了对 OpenAI 在版权法律方面的担忧,同时认为 OpenAI 的技术可能会对社会造成伤害,而其处理版权数据的方式可能对互联网产生负面影响。 Balaji 当时告诉《纽约时报》,在 OpenAI 工作了近四年后,自己意识到这项技术给社会带来的危害会大于好处,于是辞职了。 报道中还指出,OpenAI 正面临来自多家报纸和媒体出版商的版权诉讼,指控 OpenAI 违反了版权法。警方发现Balaji尸体的前一天,法院文件中,Balaji 在其中一起针对 OpenAI 的版权诉讼中被列为被告。 Balaji 在 10 月份所发的一条推文中表示: “我在 OpenAI 工作了近四年,最后一年半从事 ChatGPT 开发工作。我最初对版权和合理使用等方面知之甚少,但在看到针对从...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题