深度求索开源新模型 DeepSeek-OCR 2,提出“Visual Causal Flow”
深度求索刚刚发布最新开源模型:DeepSeek-OCR 2,引入了全新的 DeepEncoder V2 视觉编码器。该编码器的架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2 模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf 据介绍,DeepEncoder V2 让 AI 基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。 传统的 VLMs 通常按固定的光栅扫描顺序(从左上到右下)处理图像,这种僵化的方式不符合我们的视觉感知,人类是基于内容的灵活扫描,而且在处理复杂布局,如表格、公式、多栏文本时会引入错误的信息。 而 OCR 2,就是利用...
