LazyLLM教程 | 第13讲:RAG+多模态:图片、表格通吃的问答系统
在前面的课程中,我们探讨了RAG(Retrieval-Augmented Generation)的基本原理及其在纯文本处理中的应用。RAG 通过从外部知识库检索相关信息,结合上下文生成更准确、信息丰富的回答,从而提升基于文本的问答系统能力。 然而,现实世界中的信息并不局限于文本,例如 PDF 文档中的图片、表格等多模态数据也承载着大量有价值的知识。在某些情况下,这些图文并茂的内容比纯文本更直观、有效。但 RAG 主要依赖文本检索和生成,对 PDF 文件中的图片处理能力较弱,无法直接解析和利用图像信息进行检索或生成,可能导致关键信息遗漏,影响最终回答质量。因此,在 RAG 处理包含重要图片信息的 PDF 文档时,需要结合OCR(光学字符识别)或计算机视觉技术进行补充,以提高内容解析能力。 本节课程将介绍如何在 RAG 系统中处理PDF 中的图片与表格,并提取其中的关键信息进行问答,从而增强系统对多模态数据的理解与应用。 多模态模型 一、为什么要引入多模态 ? 在实际应用中,我们常常需要从合同、报告、产品说明书等多种形式的文档中提取有用信息。这些文档不仅包含丰富的文字内容,还可能包括...
