如果你用 AI 处理过长文档,一定遇到过这些崩溃时刻:
-
问 AI 一份财报的核心数据,它要么胡编乱造,要么说"对不起,我没有这份文件的内容";
-
让 AI 总结一份 50 页的技术手册,它漏掉了最关键的第三章;
-
上传一份带复杂表格的 PDF,AI 把表头数据张冠李戴;
-
跨文档对比时,AI 完全忘了上个月分析过的那份报告。
这被称为AI幻觉。
绝大多数人遇到AI胡说八道时,第一反应是换更强的模型,或者精心调整提示词。但很少有人意识到,问题的根源根本不在这里——不是模型不够强,是你喂给 AI 的原材料本身就是坏的。
目前市面上绝大多数文档解析工具,处理模式极其简单粗暴:按固定字数一刀切,把所有内容打碎成无关联的片段,然后丢给模型。但文档里的信息是有层级、有关联、有上下文的。一“刀”下去,所有关联全断了。AI 拿到一堆失去上下文的碎片,只能“脑补”——它能做的也只有这些。
除此之外,传统RAG还有两个致命短板:
其一,非结构化数据解析能力极弱。PDF、Excel、PPT等复杂格式文档包含大量表格、多级标题、图表信息,传统工具几乎无法有效处理。多级表头识别准确率趋近于零,图文混排直接丢失语义,复杂版式解析后变成一团乱码......都太常见了。
其二,与模型发展方向错位。大模型追求的是理解完整上下文和逻辑关联,但传统解析却在不断破坏这些关联。两者方向相悖,AI 能力的上限被数据质量死死卡住。正如一个形象的比喻:“AI 的智商上限,取决于你喂给它的数据质量。”Garbage in, 自然只能 garbage out.
Knowhere AI 原生解析,不仅仅是解析,更是“翻译”
针对这个久治不愈的顽疾,Ontos AI 团队拿出了真正的解决方案——Knowhere,并且今日正式开源。
Knowhere 是专为 AI Agent “量身定做”的 AI 原生文档解析引擎。它没有继续在传统 RAG 的老路上“修修补补”,而是从 AI 原生的视角重构了文档解析的技术逻辑,让 AI 真正"看全、读懂、读准"每份文档。
与传统 RAG 的碎片化路径不同,Knowhere 采用自研的 Tree-like(数据森林)算法。传统数据切片按固定字数打断,或者做粗糙的关键词提取,导致标题和内容的归属关系断裂。而 Knowhere 在解析文档时,则完整保留了文档本身的层级关系,建立数据切片之间的逻辑关联。标题层级、段落归属、跨节引用,都会被完整记录下来。
就像给线性文档转成了一棵知识树,每一根枝干,每一片叶子,都可见、可感、可追溯。
这样得到的数据切片,关联是自带的,不需要在检索时再花大量成本让大模型去重新建立关联。
这正是 Tree-like 算法的精髓——让 AI 阅读时能“看见”文档,而不仅仅是“扫过”文字。不是去做内容重构,而是对齐——
-
视觉对齐:和人类阅读逻辑一致,完整保留标题层级、段落归属、跨节引用;
-
结构对齐:完美保留结构层级,知识切片之间自带关联,无需大模型在检索时浪费成本重新建立逻辑。
-
知识对齐:从模型理解的角度重新定义数据结构,让 AI 像人一样 “理解” 而非 “拼凑” 内容。
一句话:传统 RAG 把文档切碎喂给 AI,Tree-like 算法把文档翻译给 AI。
不仅让 AI 真正“长眼睛”,更“长脑子”
除了 Tree-like 算法,Knowhere 还具备以下核心能力:
-
多模态高保真解析,让 AI"看全"所有信息
兼容 PDF、Word、PPT、Excel 等多种格式,完整保留表格逻辑、图文上下文与多模态信息,确保 AI 获取的原始信息不丢失。
-
结构化解析,让 AI"读懂"核心逻辑
将非结构化文档转化为带有语义关系的结构表达,AI 不再在碎片间猜测内容,能快速理解文档核心信息。
-
语义层级 1:1 锚定,让 AI"读准"还能"溯源"
每条输出都精确可回溯来源,确保生成结果有据可查,从根源降低幻觉,显著节省 Token 成本。
-
动态知识图谱,它会"记住",还会"学习"
一般的文档工具,你传一份文件,它帮你处理一份。换个对话,忘得一干二净。
Knowhere 做的是知识图谱和智能体记忆层面的东西。它不只是存储文件,而是在解析的同时,把文档里的知识跟已有的知识体系关联起来——类似人脑的学习方式:先有一个自己的知识结构,学新东西的时候,把新的和原来的知识关联起来,不停地更新和扩展。当用户提问多份报告里的“上季度和这季度的净利润对比”类问题,它能跨文档给出答案。
在实际场景的表现中,Knowhere 在关键指标上优势明显。
-
AI 推理表现:实现80%+产品感知提升,上百份文件扫描耗时10min内,长文档 “逻辑失忆” 问题彻底解决;
-
成本效率优化:Token 消耗降低 50%+,解析效率提升3倍+,算力成本直降50%;
-
全模态解析能力:多模态信息提取完整度95%+,复杂表格解析准确率 95%+,实现文档信息无遗漏。
Token 节省一半,AI 也不再跑偏。
今日开源:Apache-2.0 协议,人人可用的 Agent 基础设施
今天,Knowhere 正式开源了全部核心代码,包括文档摄入、解析和 AI Agent 集成工具。
你可以选择访问官网注册账号,即开即用(免费试用14天,赠送5美元额度)。
也可以通过 Githubknowhere-self-hosted自行部署。
当模型能力趋同时,AI 领域的竞争,正下沉为数据解析效能的竞争。
如果你也正被 AI 幻觉、高 Token 成本、复杂文档解析等问题困扰,不妨现在就加入 Knowhere:
🌟 GitHub 开源仓库:https://github.com/Ontos-AI/knowhere
🌐 官网体验:https://knowhereto.ai/
🔗 Playground:https://notebook.knowhereto.ai
欢迎 Star、Fork、提交 PR,与我们共建 Agent 时代的知识基础设施。