有道 QAnything 背后的故事 --- 关于 RAG 的一点经验分享
近日,我们开源了有道自研的RAG(Retrieval Augmented Generation) 引擎QAnything。该引擎允许用户上传PDF、图片、Word、Excel、PowerPoint等多种格式的文档,并实现类似于ChatGPT的互动问答功能,其中每个答案都能精确追溯到相应的文档段落来源。QAnything 支持纯本地部署,上传文档数量无上限,问答准确率高。 QAnything自开源以来,迅速吸引了开发者社区的广泛关注,并很快登上了GitHub trending榜单。短短一个月内,下载次数已达数万次,其中,我们的语义嵌入排序模型BCEmbedding更是达到了惊人的60万次下载。根据社区的热情反馈,我们决定分享QAnything背后的研发故事、技术路线选择以及我们的经验,希望能够为社区带来启发。 QAnything的起源 与市场上的其他Retrieval Augmented Generation (RAG) 产品相比,QAnything引擎的研发轨迹略显不同。它不是一开始就被设定为一个具体的项目目标,而是在项目进展中,通过不断的探索和实践,逐步成形的。这个过程虽然经历了一些...