Midscene v1.0 发布 - 视觉驱动,UI 自动化体验跃迁
Midscene 是一个视觉模型驱动,支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队宣布 Midscene v1.0 版本已发布,全面转向视觉理解方案,提供更稳定可靠的 UI 自动化能力。 视觉模型有以下特点: 效果稳定:业界领先的视觉模型(如 Doubao Seed 1.6、Qwen3-VL 等)表现足够稳定,已经可以满足大多数业务需求 UI 操作规划:视觉模型通常具备较强的 UI 操作规划能力,能够完成不少复杂的任务流程 适用于任意系统:自动化框架不再依赖 UI 渲染的技术栈。无论是 Android、iOS、桌面应用,还是浏览器中的<canvas>,只要能获取截图,Midscene 即可完成交互操作 易于编写:抛弃各类 selector 和 DOM 之后,开发者与模型的“磨合”会变得更简单,不熟悉渲染技术的新人也能很快上手 token 量显著下降:在去除 DOM 提取之后,视觉方案的 token 使用量可以减少 80%,成本更低,且本地运行速度也变得更快 有开源模型解决方案:开源模型表现渐佳,开发者开始有机会进行私有化部署模型,如 Qw...


