DeepSeek 大范围开放识图模式：不是 OCR，是真看图说话-低调大师

DeepSeek 大范围开放识图模式：不是 OCR，是真看图说话

2026-05-09 13

4 月 28 日，DeepSeek 多模态团队研究员陈小康在 X 平台发布了一条意味深长的推文：「Now, we see you.」配图是 DeepSeek 标志性的蓝色鲸鱼 —— 左边戴着海盗眼罩，右边则睁开了双眼。这条推文随后被删除，但「鲸鱼开眼」的隐喻已经传开。

一天后的 4 月 29 日，DeepSeek 正式开启「识图模式」灰度内测。

而到 5 月初，据多家媒体和用户反馈，该功能已大范围开放，「几乎所有测试账号都能看到入口」。不过，入口按钮上至今仍标注着一行小字：「图片理解功能内测中」。

可以看到，在网页端和 App 的对话界面中，「识图模式」作为第三个标签，与原有的「快速模式」「专家模式」并排出现在输入框上方。点击进入后，输入框旁会出现图片上传按钮，支持拖拽、粘贴或点击上传。

与市面上许多「上传图片→提取文字」的 OCR 工具不同，DeepSeek 强调这是深度图像理解 —— 模型不仅能读取画面中的文字，还能理解场景氛围、物体关系、空间逻辑甚至文化语境。

根据灰度用户的广泛测试，识图模式在以下场景表现亮眼：

文物鉴定：上传一件玉器照片，非思考模式只能描述外观；开启深度思考后，模型准确识别为「清代痕都斯坦风格」，并给出纹饰和工艺分析。
截图转码：上传含 UI 界面的截图，模型能反向生成结构完整、可交互的 HTML 代码，复现按钮和跳转逻辑。
空间推理：解答立方体旋转与组装类题目，非思考模式容易出错，但深度思考后能给出正确结论（代价是耗时较长，约 4 分钟）。
表情包与梗图：能识别公众人物和动漫角色，并解读其中的幽默逻辑和情绪氛围。
地理推断：结合建筑特征和画面中的少量文字，推断出准确的地理位置并给出坐标。

处理效率方面，非思考模式下响应极快，一张 800×800 像素的图像仅消耗约 90 tokens。

多方实测推测，识图模式背后是一个独立于 DeepSeek-V4 Flash/Pro 的视觉理解模型，基于「Thinking with Visual Primitives」框架，属于挂载在 V4 主干上的视觉模块，而非 V4 原生的多模态能力。这也解释了为什么 V4 预览版（4 月 24 日发布）是纯文本模型，识图模式却在短短几天后即开启灰度 —— 这是两条独立的技术线。

识图模式并非万能。在极限测试中，它暴露出明显短板：

数手指 / 爱心测试：类似「图中有几只老虎」的计数题，模型容易幻觉，自我博弈后仍可能答错。
反色 / 碎块化图片：这类反直觉视觉任务基本失败。
复杂行测图形题：非思考模式下错误率较高，深度思考虽能解对但耗时惊人。
知识库滞后：对于较新的产品、游戏或机型，模型可能误判（如将小米 15 Ultra 误认为小米 11 Ultra）。

此外，该模式目前不支持图像生成、视频理解、以图搜图和二维码识别，HEIF 等部分图片格式也无法上传。

识图模式的灰度上线，标志着 DeepSeek 从纯文本正式迈入图文交互时代。官方技术报告曾将「将多模态能力融入模型体系」列为未来方向，而灰度上线的识图模式被视为向完整多模态过渡的阶段性产品。后续官方预告的 Vision 版本，可能会承载更原生、更完整的多模态功能。

对于已经获得入口的用户来说，这颗「睁眼的鲸鱼」值得亲自试试。

微信关注我们

原文链接：https://www.oschina.net/news/438247

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GeekAI v4.2.7 已经发布，AI 助手全套开源解决方案

GeekAI v4.2.7 已经发布，AI 助手全套开源解决方案此版本更新内容包括： Bug 修复：修复超级管理员无法修改密码的 Bug Bug 修复：微信登录配置更新后，没有同步更新到系统配置功能优化：给 AI 对话 API 加上线程锁，确保同一个用户同时只有一个对话请求功能新增：支持即梦 AI 4.0 图片编辑，即梦 AI 数字人，动作迁移功能。功能新增：新增 AI 对话编辑功能，并优化了重新生成逻辑详情查看：https://gitee.com/blackfox/geekai/releases/v4.2.7

2026-05-09

12

菲尔兹奖得主、剑桥大学数学教授Timothy Gowers近日发布博客文章，详细记录了他使用ChatGPT 5.5 Pro进行数学研究的亲身经历。这款尚未公开发布的AI模型仅用约一小时便完成了多项博士级别的原创数学研究，成功解决了一个组合数学领域的开放性问题，引发学术界对AI数学能力的重新评估。从"文献检索"到"原创发现"：AI数学能力的质变 Gowers教授在文章中指出，大语言模型在数学领域的应用经历了明显的演进过程。早期，LLM解决数学问题的方式往往被质疑为"只是从文献中找到现成答案"或"简单推导已知结果"。...

2026-05-09

13

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。