由 DeepSeek-OCR 启发的新思路:所有输入给 LLM 的内容都只应该是图像
Andrej Karpathy(特斯拉前自动驾驶负责人、OpenAI 联合创始人)在推特对 DeepSeek 最新开源的DeepSeek-OCR发表了自己的看法: 我很喜欢 DeepSeek-OCR 这篇新论文。它本身是一个很不错的 OCR 模型(可能比 dots.ocr 稍差一点),当然,它的成功离不开数据收集等工作,但这不重要。 对我来说,更有趣的部分在于它提出的一个核心问题(尤其我骨子里是个搞计算机视觉的,只是暂时伪装成搞自然语言处理的):对于大语言模型(LLM)来说,像素(图像)会不会是比文本更好的输入形式? 换句话说,我们现在用的文本令牌 (text tokens) 作为输入,是不是既浪费又糟糕? 也许,未来所有给 LLM 的输入都只应该是图像,这样可能更合理。就算你拿到的是纯文本,或许也应该先把它“渲染”成图片再输入给模型,因为这样做有几个显而易见的好处: 1️⃣更高的信息压缩率:就像这篇论文展示的那样 ,把文本转为图像,可以用更少的视觉令牌表示更多的内容。这意味着更短的上下文窗口和更高的效率 。 2️⃣信息流变得更加通用:输入不再局限于纯文本,还可以轻松包含加粗、彩色文字...
