谷歌将 Computer Use 能力原生集成到 Gemini 3.5 Flash-低调大师

谷歌将 Computer Use 能力原生集成到 Gemini 3.5 Flash

2026-06-25 5

2026年6月24日，Google DeepMind团队宣布将计算机使用（computer use）能力原生集成到Gemini 3.5 Flash模型中。这意味着开发者现在可以通过单一模型构建能够在浏览器、移动设备和桌面环境中"看见屏幕内容、理解界面逻辑并自主执行操作"的AI Agent——而不再需要为此单独部署一个专门的计算机使用模型。这项能力通过Gemini API和Gemini Enterprise Agent Platform向开发者开放。

在技术架构上，Computer Use被设计为Gemini 3.5 Flash的一项原生工具，与Search搜索接地、Maps地图接地和函数调用（function calling）等已有工具并列存在。此前，这项能力仅作为一个独立的Gemini 2.5计算机使用模型提供，需要在主模型之外额外调用。将computer use集成到3.5 Flash的直接好处是简化了开发者体验：一个 Agent在进行多步骤任务时，比如研究一个话题、在网页上填写表单、然后将结果记录到电子表格中——可以在同一个模型上下文中同时使用搜索、计算机操作和工具调用，而不需要在多个模型之间切换和手动传递上下文。这对代理式任务的可靠性和延迟都有实质性的改善。

这种"多工具合一"的架构选择反映了Google DeepMind对AI Agent发展方向的一个关键判断：Agent的可靠性瓶颈不在于单项工具的能力极限，而在于多工具之间的上下文切换和信息损失。当搜索、计算机操作和函数调用各自运行在不同的模型上时，每个切换点都是错误注入的机会。而将它们统一在一个模型架构中，上下文可以在不同工具之间连续流动，理论上可以大幅降低复杂任务中途失败的概率。这是Google对AI Agent范式的一个建筑学级别的决策——与其建造三个需要不断通信的独立建筑，不如直接建造一个连通的综合体。

Google为Computer Use定义了三个核心应用场景。首先是长时间运行的自动化任务，那些需要AI在数小时甚至数天内持续操作多个应用界面来完成的流程，比如跨系统的数据迁移、多平台的合规审核、或者供应链管理系统中的多节点信息同步。这类任务的共同特征是步骤繁多但结构相对固定，人类操作员容易因疲劳而出错，而AI Agent则可以在无人值守的情况下持续执行。

其次是持续性软件测试。AI Agent可以在每次代码变更后自动打开浏览器、执行预设的用户操作路径、跨多个设备和屏幕尺寸验证UI的一致性，并在发现异常时生成带有截图的详细报告。这比传统的脚本化UI测试更灵活，因为它可以在一定程度上适应UI布局的非结构性变化。第三是跨应用的知识工作。比如让AI同时操作CRM系统、数据分析工具和电子邮件客户端来完成一个销售线索的完整跟进流程，或者在一个法律合规场景中跨多个文档平台收集证据和交叉引用条款。所有这些场景的共性在于它们不只是一次性的"看屏幕点按钮"，而是需要在多个上下文之间保持连续性的、有目的的工作流。

在安全设计上，Google采用的是一种多层防御策略。第一层是针对性对抗训练。专门针对computer use场景中可能出现的恶意指令进行了模型级别的安全强化。第二层是可选的"企业安全护栏"，要求AI在执行敏感操作（如提交表单、发送消息、修改文件）之前获取用户的显式确认。第三层是间接提示注入检测。当模型检测到外部内容（如网页中的隐藏文字）试图向模型注入恶意指令时，会自动中止当前任务。

这三层机制加上沙箱隔离、人工审核环节和严格的访问控制，构成了一个相对完整的安全边界。虽然Google也坦承，在真实的计算机使用环境中，安全挑战的性质已经从"能不能防住已知攻击"转变为"如何在一个本质上不可控的开放环境中管理风险"。

值得留意的是，Google在发布Computer Use时并未像以往那样强调在OSWorld等标准benchmark上的排名。这在Google的发布风格中是一个微妙的变化。很可能的原因是：目前的标准化评测无法充分反映现实世界computer use任务的复杂性——在实验室环境中模拟的桌面操作与真实世界中参差不齐的网页、不一致的UI规范和不可预测的弹窗之间，存在着评测无法捕捉的巨大差距。Google选择用"我们最好的表现"这种定性表述而非具体数字，暗示了对这一点的自觉。

参考来源：

Google Blog: Introducing computer use in Gemini 3.5 Flash

微信关注我们

原文链接：https://www.oschina.net/news/467115/introducing-computer-use-gemini-3-5-flash

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

小参数也能做强推理！微博VibeThinker-3B引海外关注，探索AI模型新路径

近日，微博推出的小参数模型VibeThinker-3B在海外社交媒体引发热议，随即登上Hugging Face首页热点榜单前列和hacker news热榜第四名。作为一个仅有30亿参数的密集推理模型，它在包括数学解题、竞赛编程等高难度可验证推理任务上，已经进入Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5等国际前沿模型的性能区间，在国内也具备对标豆包、MiniMax、GLM、Kimi等一线模型的实力。 “小而强”的推理专才：偏科背后的技术逻辑据悉，这并非微博首次在小模型赛道跑出黑马。早在2025年11...

2026-06-25

4

DBPanel 珑大 Linux 服务器面板发布 v1.0.0-rc3 版本。本次更新主要带来网站访问统计和后台入口路径管理两项新能力，并修复网站安全防护在部分站点场景下未正确生效的问题，同时优化 Composer 管理入口和基础设置页面体验。 DBPanel 官网地址： https://panel.loongdom.cn/ DBPanel 是什么？ DBPanel 是一款面向 Linux 服务器管理场景的服务器面板，主要用于网站管理、运行环境管理、数据库管理、SSL 证书、备份恢复、安全防护、任务中心以及珑大产品部署与运维。 DBPanel 当前重点支持以下系统： Ubuntu 2...

2026-06-25

5

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。