Google DeepMind 团队宣布对 Gemini API 的 File Search 工具进行重大扩展,推出三项核心功能更新——多模态支持、自定义元数据过滤,以及页码级引用。这些改进旨在帮助开发者更高效地构建可验证的检索增强生成(RAG)系统,让非结构化数据的组织与利用变得更加结构化。
长期以来,RAG 系统的检索能力主要局限于文本内容,对于图片、图表等视觉信息的处理能力相对薄弱。此次更新中,File Search 引入了基于 Gemini Embedding 2 模型的多模态处理能力,使其能够同时理解图像与文本内容。这意味着,开发者无需依赖关键词或文件名,即可通过自然语言描述来检索具备特定情感基调或视觉风格的图片资源。例如,一家创意 agency 想要从海量素材库中寻找符合特定情绪氛围的视觉资产,只需用自然语言描述需求,系统便能直接定位到最匹配的图像。据 Klipy 联合创始人 Givi Beridze 反馈,新模型在处理质量参差不齐的图片内文字时表现出色,有效消除了幻觉问题,显著提升了生产环境的可靠性。

在大规模数据管理场景中,检索噪音一直是影响 RAG 效率的瓶颈。Google 此次推出的自定义元数据功能允许用户为文件附加键值对标签,如 department: Legal 或 status: Final。在查询时,应用可以通过这些元数据过滤器限定检索范围,从而大幅减少无关文档带来的干扰,既提升了检索速度,也提高了结果准确性。这一机制将原本难以管理的非结构化数据进行了有效的逻辑分层。
另一个关键改进是页码级引用。当模型从大型 PDF 文档中提取答案时,系统会自动记录每一条索引信息的来源页码。这种细粒度的溯源能力让用户可以直接跳转到原始出处进行验证,极大增强了模型的可解释性和可信度,对于需要严格事实核查的场景尤为重要。
从实现层面看,开发者可以通过 google-genai 库快速上手:创建多模态文件存储、上传文档与图片、随后即可通过 Gemini 3 Flash Preview 模型进行跨文件检索。Google 提供了完整的开发指南和 API 文档,帮助开发者将重心从产品基础设施转移到应用创新本身。
目前,File Search 的三项新功能已面向 Gemini API 用户开放。
参考来源: https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag/