字节跳动开源 UI-TARS-1.5：基于视觉-语言模型构建的多模态智能体-低调大师

字节跳动开源 UI-TARS-1.5：基于视觉-语言模型构建的多模态智能体

2025-04-18 149

字节豆包大模型团队宣布开源 UI-TARS-1.5。

据介绍，这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。目前，UI-TARS-1.5 已在 7 个典型的 GUI 图形用户界面评测基准中取得 SOTA 表现，并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。

UI-TARS-1.5 基于该团队此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。

该版本的模型中，团队还展示了一个新的愿景：以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比，游戏更多依赖直观的、常识性的推理，并较少依赖专业知识，因此，游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍，UI-TARS 作为原生 GUI 智能体，具备真实操作电脑和手机系统的能力，同时，还可操控浏览器、完成复杂交互任务。

UI-TARS-1.5 能够实现精准 GUI 操作，基于团队在四个维度的技术探索：

视觉感知增强：依托大规模界面截图数据，模型可理解元素的语义与上下文，形成精准描述。
System 2 推理机制：在动作前生成“思维（thought）”，支持复杂任务的多步规划与决策。
统一动作建模：构建跨平台标准动作空间，通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式：通过自动化的交互轨迹采集与反思式训练，模型持续从错误中改进，适应复杂环境变化。

开源地址

GitHub：https://github.com/bytedance/UI-TARS
Website：https://seed-tars.com/
Arxiv：https://arxiv.org/abs/2501.12326

微信关注我们

原文链接：https://www.oschina.net/news/345234/bytedance-ui-tars-1-5

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

10 亿上海具身智能基金正式成立

由上海国有资本投资有限公司与浦东新区联合发起的上海具身智创创业投资合伙企业（有限合伙）（以下简称“上海具身智能基金”）已于近日完成工商注册，目标规模10亿元人民币，首关5.6亿元人民币。上海具身智能基金由上海国资母基金、浦东创投、张江集团共同担任基石出资人，国投孚腾担任基金管理人，浦东创投担任执行事务合伙人，基金将依托张江机器人谷，聚焦具身智能本体、核心零部件、泛机器人等产业链关键环节，加速技术研发与产业转化，助力上海构建国际领先的具身智能产业集群。该基金将重点投向三大领域：具身智能本体：支持人形机器人、工业协作机器人等智能体的研发与场景落地核心零部件：突破高精度传感器、仿生驱动装置、边缘计算芯片等“卡脖子”技术泛机器人应用：拓展医疗康复、智慧物流、特种作业等垂直场景的智能化解决方案

2025-04-18

337

百度创始人李彦宏的2025年首场演讲海报曝光，他将于4月25日在Create2025百度AI开发者大会上，带来持续1个小时的演讲《模型的世界，应用的天下》。海报背景文案囊括了MCP、智能体、数字人、模型成本等AI热点议题，预告了李彦宏将在大会现场带来百度AI的全新产品发布和业务进展。此前，百度预告将在Create大会上发布文心大模型4.5 Turbo，从海报看，李彦宏或将在演讲中详细介绍这款模型的特色和能力。文心大模型 4.5 Turbo 强在哪里？ MCP 会带来更开放的生态吗? 智能体应用的下一站在哪里？模型迭代太快，应用会不会过时？开发者的机会在哪里？相关阅读：百度文心大模型 4.5 Turbo 将于 4 月 25 日亮相

2025-04-18

140

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。