谷歌 Gemini 任务自动化正式上线：虽慢但酷，AI 助手终于能替你点外卖了-低调大师

谷歌 Gemini 任务自动化正式上线：虽慢但酷，AI 助手终于能替你点外卖了

2026-03-23 51

谷歌近日正式在Pixel 10 Pro和Galaxy S26 Ultra上推出了Gemini的任务自动化功能（Task Automation），这是目前主流AI助手中首个能够真正接管手机、替用户完成复杂多步骤操作的功能。虽然当前仅支持Uber、DoorDash等少数几款外卖和打车应用，且仍处于测试阶段，但这一功能的亮相被业界视为AI助手从"对话工具"向"执行代理"进化的重要里程碑。

过去十年间，Siri、Google Assistant、小爱同学等语音助手已经能够回答天气、设置闹钟、播放音乐，但始终停留在"信息查询"和"简单指令"层面。用户想要叫车或订餐，仍然需要亲手打开应用、填写信息、确认支付。Gemini任务自动化的核心突破在于，它首次让AI能够在后台独立完成整套操作流程：理解用户需求、打开第三方应用、填写表单、选择选项、确认订单——用户只需用自然语言描述需求，剩下的全部交给AI。

根据实测体验，Gemini在执行任务时会实时显示操作进度，在屏幕底部以文字形式告知当前正在进行的步骤，例如"正在打开Uber""正在选择目的地""正在选择车型"等。整个过程用户可以全程旁观，也可以切换去做其他事情，Gemini会在后台持续运行直至任务完成。

The Verge编辑Allison Johnson在测试中描述了一个典型案例：用Gemini点一份DoorDash外卖，全程耗时约九分钟。这个数字对于熟练手机用户而言显然过于漫长——手动操作可能只需两分钟。速度瓶颈主要来自AI需要逐帧识别界面元素、理解内容、做出决策，每一步都涉及大量的云端推理和本地计算。

然而，速度并非这项功能的唯一衡量标准。谷歌的设计初衷是让Gemini在后台异步运行，用户无需守候在屏幕前。你可以一边让AI帮你订餐，一边整理行李、回复邮件或做任何其他事情。这种"委托执行"的模式打破了传统人机交互的即时性约束，开创了"发令-等待结果"的全新交互范式。

目前Gemini任务自动化仅支持少量应用，主要是Uber、DoorDash等结构相对规范、流程相对标准化的服务。这反映出当前AI在复杂UI理解和长链条任务规划上的技术局限：界面元素识别错误、支付环节安全限制、异常流程处理等问题仍是待解难题。

更深层次的技术挑战在于跨应用协作和上下文理解。现实生活中的任务往往涉及多个应用协同——比如先查地图确定餐厅位置，再打开点评应用看评分，最后在打车应用中叫车。这类跨应用、多步骤的复杂任务对AI的规划能力和容错能力提出了更高要求。

Gemini任务自动化的推出，正值全球科技巨头竞相布局"AI Agent"（AI智能体）赛道之际。OpenAI的Operator、Anthropic的Computer Use、苹果的Apple Intelligence均在不同程度上探索让AI从"说"到"做"的跨越。不同的是，谷歌选择从移动端切入，依托Android生态的海量设备和Gemini的深度系统集成，试图率先抢占用户日常高频场景。

分析人士指出，2026年将是AI Agent从概念验证走向实用化的关键一年。谁能率先解决可靠性、安全性和生态整合三大难题，谁就有可能在下一代人机交互平台的争夺中占据先机。谷歌此次推出的功能虽显稚嫩，但已经展示了AI从"助手"进化为"代理"的清晰路径。

对于普通用户而言，Gemini任务自动化代表了一种"未来已来"的体验。第一次看到自己的手机在无人触碰的情况下自动滑动、点击、填写信息，那种科幻感令人震撼。然而，当前的实用性仍然有限——支持的应用太少、执行速度太慢、失败率有待降低。这更像是谷歌向开发者和投资者展示技术实力的"概念产品"，而非能够大规模替代人工操作的成熟功能。

但技术的进步往往遵循指数曲线。回想十年前，语音识别的准确率还不足80%，如今已在多数场景达到人类水平。Gemini任务自动化 today's clunky experience 很可能是 tomorrow's seamless norm 的前奏。当AI能够以接近人类的速度和准确度操作任意应用时，手机的使用方式将被彻底改写。

参考来源

https://www.theverge.com/tech/898282/gemini-task-automation-uber-doordash-hands-on
https://www.theverge.com/tech/884210/google-gemini-samsung-s26-pixel-10-uber

微信关注我们

原文链接：https://www.oschina.net/news/413423

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Reddit 计划引入身份验证机制对抗机器人

全球最大论坛社区Reddit正在考虑引入用户身份验证机制，以应对日益严重的机器人账号和虚假内容问题。Reddit CEO史蒂夫·霍夫曼（Steve Huffman）在近日的一档播客节目中披露了这一计划，引发社区热议。霍夫曼在节目中详细阐述了Reddit正在评估的几种身份验证方案，从轻量级到严格程度各不相同：轻量级方案：采用类似Face ID或Touch ID的生物识别技术。霍夫曼解释道："这些方法实际上需要人类存在，需要有人触摸、操作或注视设备，这就能证明有人在场。" 第三方服务：依托去中心化或无需身份ID的第三方验证服务，在保护隐私的前提下确认用户真实性。严格方案：使用身份证件核验服务，这是最为严格的验证方式，但同时也是对用户隐私要求最高的选项。 Reddit长期以来以匿名性著称，这也是其社区文化的核心特征之一。霍夫曼强调，平台仍将优先保护用户匿名性："我们对用户的承诺是——我们不知道你的名字，但我们希望确认你是一个真实的人。"然而，这一表态也暴露了Reddit面临的根本矛盾：如何在保持匿名的同时确保真实性？近年来，机器人账号在社交媒体平台泛滥成灾，Reddit也未能幸免。...

2026-03-23

35

据Windows Latest报道，微软正积极鼓励Electron开发者在应用中集成Windows 11内置AI功能。这一举措标志着微软在"AI操作系统"战略上的持续加码——即便Electron框架因内存占用过高而饱受诟病，微软仍选择优先推进AI能力的生态渗透。据报道，微软在官方支持文档中明确表示，Electron开发者无需编写任何原生代码即可调用Windows 11的AI功能，包括文本生成、摘要提取、写作辅助、图像描述等。这些功能目前仅适用于搭载NPU的Copilot+ PC设备，但微软计划通过示例项目和开发工具扩大覆盖范围。值得注意的是，微软在文档中反复强调"原生"概念达八次之多，意在向开发者传递一个核心信息：继续使用JavaScript/Electron技术栈不会成为拥抱Windows AI功能的障碍。这种策略明显是在回应JavaScript之父Brendan Eich此前对Electron的批评——他曾警告开发者不要"用仓促的Web体验替代原生应用"。 Electron框架因捆绑Chromium实例而内存占用居高不下，这一结构性缺陷在业界已有定论。Visual Studio...

2026-03-23

46

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。