Kimi 发布视觉思考模型 k1-低调大师

Kimi 发布视觉思考模型 k1

2024-12-16 365

Kimi 宣布推出视觉思考模型 k1，基于强化学习技术打造，原生支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。

公告称，在数学、物理、化学等基础科学学科的基准能力测试中，初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。「Kimi 视觉思考版」会完整呈现推理思维链CoT，让用户不只看到答题结果，也能完整看到模型思索答案的全过程。

目前，k1 视觉思考模型已陆续上线最新版「Kimi智能助手」的 Android 和 iPhone 手机APP以及网页版 kimi.com。在最新版手机APP或网页版 Kimi+ 页面找到「Kimi 视觉思考版」，即可拍照或传图体验。

“今天我们发布和上线的 k1 视觉思考模型，真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案，不需要借助外部的OCR或额外视觉模型进行信息处理，用户体验和效果都达到了新的高度。”

从模型训练的角度看，k1 视觉思考模型的训练分为两个阶段，先通过预训练得到基础模型，再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力，在 OCRBench 上得到 903 分的当前最好（state-of-the-art）结果，在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9，处于全球第一梯队水平。

不过项目团队也承认，在内部测试中发现了一些 k1 视觉思考模型存在的局限性，例如在分布外（out-of-distribution）的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面，有很大提升空间。在一些场景和泛化能力上，k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。

更多独家技术见解与热门话题讨论，尽在【开源中国 APP】，与数百万开发者一起，随时随地探索技术无限可能。

微信关注我们

原文链接：https://www.oschina.net/news/325130

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源日报 | Fedora项目负责人将离任；微软发布Phi-4；“NVIDIA对中国市场断供”不实；日常AI辅助编程的模型搭配；VSCode 1.96发布

欢迎阅读 OSCHINA 编辑部出品的开源日报，每天更新一期。 # 2024.12.13 今日要闻 Fedora 项目负责人 Matthew Miller 即将离任 Fedora 项目负责人 Matthew Miller 称他担任这一职位超过了十年时间，是时候换一个新人接替他继续推动项目前进。他表示，项目状况良好，有很高的社区参与度，有赞助商的强有力支持，在 Linux 世界备受欢迎，知名度高涨。但要推动项目向更广阔的方向前进，需要一位有新能量和新观念的人。预计明年发布 Fedora Linux 42 时将宣布新负责人人选。 Matthew Miller 还指出，Red Hat 对 Fedora 的支持比以往任何时候都更加强力，他计划帮助它进一步发展，因此他将担任 Red Hat 的 Community Linux Engineering 的一个全职管理职位，Fedora 项目仍然是其日常工作的一部分，他不会离开 Fedora 项目。微软发布 Phi-4：140 亿参数的顶级小型语言模型微软今天宣布推出 14B 参数 “最先进” 小型语言模型（SLM）Phi-4。除了传统的语言处...

2024-12-13

500

近日，前 OpenAI 员工 Suchir Balaji 在旧金山公寓中被发现死亡。旧金山首席法医办公室方面透露，已确认死者为 26 岁的旧金山人 Suchir Balaji，其死亡方式已确定为自杀。据当地警方称，初步调查中没有发现任何犯罪痕迹。今年 10 月，Suchir Balaji 曾接受《纽约时报》采访，他表达了对 OpenAI 在版权法律方面的担忧，同时认为 OpenAI 的技术可能会对社会造成伤害，而其处理版权数据的方式可能对互联网产生负面影响。 Balaji 当时告诉《纽约时报》，在 OpenAI 工作了近四年后，自己意识到这项技术给社会带来的危害会大于好处，于是辞职了。报道中还指出，OpenAI 正面临来自多家报纸和媒体出版商的版权诉讼，指控 OpenAI 违反了版权法。警方发现Balaji尸体的前一天，法院文件中，Balaji 在其中一起针对 OpenAI 的版权诉讼中被列为被告。 Balaji 在 10 月份所发的一条推文中表示： “我在 OpenAI 工作了近四年，最后一年半从事 ChatGPT 开发工作。我最初对版权和合理使用等方面知之甚少，但在看到针对从...

2024-12-16

418

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。