懒懒笔记 | 课代表带你梳理【RAG课程 13&14:多模态突围与综合论文问答系统实战】
“缓存搞定了、异步也安排了,RAG 终于跑得飞快……但它真的能看懂图了吗?” 🙋♀️ “PDF 里的图表,怎么总像谜语人?” 🙋♂️ “论文里密密麻麻的公式,是让人看,还是让人头疼?” 别急,前面几讲我们刚把 RAG 提速到起飞,这次——直接上天看图表! 第13、14讲,火力全开攻克“多模态”难题,聚焦如何让 RAG 看图识表、解读论文、图文并茂输出高质量答案! 为什么要引入多模态? 现实痛点:合同、论文、产品手册中,50%关键信息藏在图表里(如论文实验数据、财报统计图) 传统局限:纯文本RAG处理PDF时,图片=空白,表格=乱码(全靠OCR硬扛,效果看命💔) 解法:引入多模态大模型(MLLM),让AI像人类一样图文协同理解 基本原理 层级 核心任务 技术方案 关键突破 感知层 (特征提取) 多模态→统一向量化 • 图像:CNN/ViT • 音频:频谱Transformer • 文本:BERT/GPT • 视频:帧序列编码 打破模态壁垒 异构数据统一表达 对齐层 (语义映射) 跨模态语义关联...


