谷歌 Gemini 3 Flash 新增“Agentic Vision”功能:将视觉推理与代码执行相结合
谷歌宣布其 AI 模型 Gemini 3 Flash 增加了一个全新的视觉能力模块 Agentic Vision,旨在让模型在处理图像时更像人类专家,而不是静态“看一眼就猜”。 过去的大多数 AI 视觉模型都是“静态看图”:它们接收一张图片,试着一次性理解内容。但这样做,若遇到细节极小、信息密集的视觉任务(比如识别微小字符、远处标志等),结果往往不够精确。 Agentic Vision 的核心创新在于引入了一种类似调查式的视觉分析流程 — 让模型像工程师一样“思考→操作→观察”,从而依据视觉证据得出更可靠的结论。 Think(思考):模型根据用户提问和初始图像制定一个多步骤分析计划。 Act(执行):通过自动生成并执行 Python 代码,模型对图像进行剪裁、旋转、标注、计数等操作。 Observe(观察):处理后的图像被加入上下文,模型在新的视角下重新分析并回答。 这种“看 → 处理 → 再看”的循环式分析,让 Gemini 在视觉任务的准确性上平均提升 5–10%。 目前 Agentic Vision 能力已经在 Gemini AI Studio、Vertex AI 中通过 Gem...


