Gemini API File Search 升级：多模态检索、自定义元数据与页码引用全面落地-低调大师

Gemini API File Search 升级：多模态检索、自定义元数据与页码引用全面落地

2026-05-11 11

Google DeepMind 团队宣布对 Gemini API 的 File Search 工具进行重大扩展，推出三项核心功能更新——多模态支持、自定义元数据过滤，以及页码级引用。这些改进旨在帮助开发者更高效地构建可验证的检索增强生成（RAG）系统，让非结构化数据的组织与利用变得更加结构化。

长期以来，RAG 系统的检索能力主要局限于文本内容，对于图片、图表等视觉信息的处理能力相对薄弱。此次更新中，File Search 引入了基于 Gemini Embedding 2 模型的多模态处理能力，使其能够同时理解图像与文本内容。这意味着，开发者无需依赖关键词或文件名，即可通过自然语言描述来检索具备特定情感基调或视觉风格的图片资源。例如，一家创意 agency 想要从海量素材库中寻找符合特定情绪氛围的视觉资产，只需用自然语言描述需求，系统便能直接定位到最匹配的图像。据 Klipy 联合创始人 Givi Beridze 反馈，新模型在处理质量参差不齐的图片内文字时表现出色，有效消除了幻觉问题，显著提升了生产环境的可靠性。

在大规模数据管理场景中，检索噪音一直是影响 RAG 效率的瓶颈。Google 此次推出的自定义元数据功能允许用户为文件附加键值对标签，如 department: Legal 或 status: Final。在查询时，应用可以通过这些元数据过滤器限定检索范围，从而大幅减少无关文档带来的干扰，既提升了检索速度，也提高了结果准确性。这一机制将原本难以管理的非结构化数据进行了有效的逻辑分层。

另一个关键改进是页码级引用。当模型从大型 PDF 文档中提取答案时，系统会自动记录每一条索引信息的来源页码。这种细粒度的溯源能力让用户可以直接跳转到原始出处进行验证，极大增强了模型的可解释性和可信度，对于需要严格事实核查的场景尤为重要。

从实现层面看，开发者可以通过 google-genai 库快速上手：创建多模态文件存储、上传文档与图片、随后即可通过 Gemini 3 Flash Preview 模型进行跨文件检索。Google 提供了完整的开发指南和 API 文档，帮助开发者将重心从产品基础设施转移到应用创新本身。

目前，File Search 的三项新功能已面向 Gemini API 用户开放。

参考来源： https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag/

微信关注我们

原文链接：https://www.oschina.net/news/438950

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Airbnb 一季度 60% 新代码由 AI 编写

在日前举行的 Airbnb 2026 年第一季度财报电话会议上，该公司花费了很大一部分时间都用来讨论如何利用 AI 工具进行代码编写、客户支持和搜索。并声称，其工程师在该季度编写的代码中有 60% 是由 AI 生成的。 Airbnb 首席执行官 Brian Chesky 指出，该公司发现 AI 对于为其 API 合作伙伴构建工具特别有帮助。 “API 合作伙伴表示，他们希望成为更好的主机提供商，也需要更好的工具。AI 带来了巨大的优势——以前可能需要 20 名工程师组成的团队才能完成的工作，现在一名工程师就可以启动代理程序，在监督下完成大量工作。采用 AI ...

2026-05-11

11

JeecgBoot AI 专题研究 * 从 GitHub Trending 榜首到一行 npm 命令上手，拆解这款用 Rust 写、跑 DeepSeek V4 的终端编程 Agent 这两年，国内开发者提到 Claude Code，心情大多很复杂 —— 一边是「真好用」，一边是「真用不起」。账号门槛、地区限制、再加上一张随时会让人心跳加速的 API 账单，让不少人只能站在围栏外看着。转机出现在 2026 年这个五一假期。一位名叫 Hunter Bown（GitHub ID Hmbown）的独立开发者，把一个叫 DeepSeek-TUI 的开源项目推上了 GitHub ...

2026-05-11

18

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。