DeepSeek 正在灰度测试“识图模式”-低调大师

DeepSeek 正在灰度测试“识图模式”

2026-04-29 9

4 月 29 日，部分用户发现 DeepSeek 网页版和 App 悄然上线了 "识图模式"，支持上传图片进行内容理解与分析。这一功能的灰度测试，标志着 DeepSeek 从纯文本对话正式迈向多模态交互。

"Now, we see you"—— 鲸鱼摘下眼罩

就在功能上线当日，DeepSeek 多模态团队负责人陈小康在 X 平台发布了一条极具象征意义的动态："Now, we see you. 👀"，配图是两只 DeepSeek 标志性鲸鱼 —— 一只仍戴着眼罩，另一只已经摘下眼罩、睁眼视物。

这并非偶然。前一日（4 月 28 日），陈小康曾发布 "Soon, we see you" 后迅速删除。从 "Soon" 到 "Now"，短短 24 小时，DeepSeek 完成了从预告到落地的全过程。

在 DeepSeek App 和网页版的对话界面中，部分用户可以看到新增了一个 "识图模式" 按钮，与月初上线的 "快速模式" 和 "专家模式" 并列。界面标注 "图片理解功能内测中"，欢迎语为 "使用识图模式开始对话"。用户上传图片后，DeepSeek 能够输出结构化的图片描述，涵盖人物、场景、动作、颜色、文字（OCR）等多个维度。与此前 "专家模式" 仅能提取图片中的文字不同，识图模式具备真正的视觉理解能力。

技术定位：V4 主干上的视觉模块

根据开发者工具抓取到的后端配置，识图模式的 model_type 为 "vision"，name 为 "识图模式"，description 为 "图片理解功能内测中"。该配置已启用（enabled: true），但默认关闭且不可手动切换，印证了灰度测试的特性。

值得注意的是，4 月 24 日发布的 DeepSeek V4（Pro 版 1.6T 参数、Flash 版 284B 参数）仍为纯文本模型，技术报告明确下一步将 "融入多模态能力"。因此，当前的识图模式更接近于挂载在 V4 上的视觉理解模块，而非原生多模态生成模型。

团队背景与人才变动

陈小康是 DeepSeek 多模态方向的核心研究者，北京大学博士毕业，研究领域涵盖视觉 - 语言模型、目标检测、语义分割等。他主导了 DeepSeek-VL2、Janus-Pro 等多模态模型的研发工作。

不过，DeepSeek 多模态团队近期经历了人才流失：4 月 12 日，元戎启行确认前 DeepSeek 多模态研究员阮翀加盟；另一位核心成员魏浩然也在春节前后离职。此次识图模式的灰度上线，是团队近三个月来首次释放产品进展信号。

开放范围与展望

目前识图模式仅限部分用户可见，尚未全量推送。有用户虽然看到了按钮，但点击后收到提示 "识图模式暂不可用，请稍后再试"。官方未明确说明开放范围及时间表，但从陈小康 "Soon→Now" 的预告节奏判断，更大范围的开放可能在数日之内。

从纯文本到图文交互，DeepSeek 的这一步虽然来得比 GPT-4V、Claude 等竞品晚了一些，但凭借 V4 强大的文本基座能力，其多模态理解的表现仍然值得期待。

参考来源：

https://www.tmtpost.com/nictation/7971982.html
https://finance.sina.com.cn/tech/roll/2026-04-29/doc-inhwefuw7911461.shtml

微信关注我们

原文链接：https://www.oschina.net/news/437599

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Fedora 正在成为 Linux 社区首选推荐版本，而这一切都是 Ubuntu 咎由自取

多年来，Ubuntu 一直是推荐给 Windows 用户转向 Linux 的首选发行版。背靠 Canonical 这样的大型组织，Ubuntu 拥有最协调的资源来打造可靠且可预测的用户体验。然而，Linux 生态格局已经发生了巨大变化，曾经的推动者似乎正在变成拖累者，而 Fedora 正在取而代之，成为新用户的标准推荐。选择 Snap 而非 Flatpak Linux 应用分发向来是一个混乱的领域，不同发行版支持不同的包管理系统。2015 年，Flatpak 问世，提供了一种新的 Linux 应用分发方式，可以被任何发行版轻松支持，同时通过容器化环境增加了安全层。Flatpak 已经被众多 ...

2026-04-29

7

腾讯混元宣布推出极致量化压缩版本翻译模型 Hy-MT1.5-1.8B-1.25bit，把支持 33 种语言的翻译大模型压缩至 440MB，无需联网，下载即可直接在手机本地运行，声称翻译质量优于谷歌翻译。根据介绍，Hy-MT1.5 是腾讯混元团队打造的专业翻译大模型，原生支持 33 种语言、5 种方言/民汉及 1056 个翻译方向。涵盖常见的中英互译，到法语、日语、阿拉伯语、俄语，甚至藏语、蒙古语等少数民族语言。以 1.8B 参数量，实现了比肩商业翻译 API 和 235B 级大模型的翻译效果。针对不同的手机用户，腾讯推出了 2-bit 与 1.25-bit 两种极致的量化压缩方案。 2-b...

2026-04-29

8

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。