Midscene v1.0 发布 - 视觉驱动，UI 自动化体验跃迁-低调大师

Midscene v1.0 发布 - 视觉驱动，UI 自动化体验跃迁

2025-12-26 86

Midscene 是一个视觉模型驱动，支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队宣布 Midscene v1.0 版本已发布，全面转向视觉理解方案，提供更稳定可靠的 UI 自动化能力。

视觉模型有以下特点：

效果稳定 ：业界领先的视觉模型（如 Doubao Seed 1.6、Qwen3-VL 等）表现足够稳定，已经可以满足大多数业务需求
UI 操作规划 ：视觉模型通常具备较强的 UI 操作规划能力，能够完成不少复杂的任务流程
适用于任意系统 ：自动化框架不再依赖 UI 渲染的技术栈。无论是 Android、iOS、桌面应用，还是浏览器中的 <canvas>，只要能获取截图，Midscene 即可完成交互操作
易于编写 ：抛弃各类 selector 和 DOM 之后，开发者与模型的“磨合”会变得更简单，不熟悉渲染技术的新人也能很快上手
token 量显著下降 ：在去除 DOM 提取之后，视觉方案的 token 使用量可以减少 80%，成本更低，且本地运行速度也变得更快
有开源模型解决方案 ：开源模型表现渐佳，开发者开始有机会进行私有化部署模型，如 Qwen3-VL 提供的 8B、30B 等版本在不少项目中都有着不错的效果

除了默认的交互场景，Midscene 还定义了 Planning（规划）和 Insight（洞察）两种意图，开发者可以按需为它们启用独立的模型。例如，用 GPT 模型做规划，同时使用默认的 Doubao 模型做元素定位。

多模型组合让开发者可以按需提升复杂需求的处理能力。

针对 Midscene 的运行时表现，进行了以下优化：

减少对设备信息接口的调用，在确保安全的情况下复用部分上下文信息，提升运行时性能，让大多数的时间消耗集中在模型端
优化 Web 及移动端环境下的 Action Space 组合，向模型开放更合理、更清晰的工具集

回放报告是 Midscene 开发者非常依赖的一个特性，它能有效提升脚本的调试效率。v1.0 还更新了回放报告：

参数视图：标记出交互参数的位置信息，合并截图信息，快速识别模型的规划结果
样式调整：支持以深色模式展示报告，更美观
Token 消耗的展示：支持按模型汇总 Token 消耗量，分析不同场景的成本情况

重新定义了 Midscene MCP 服务的定位。Midscene MCP 的职责是围绕着视觉驱动的 UI 操作展开，将 iOS / Android / Web 设备 Action Space 中的每个 Action 操作暴露为 MCP 工具，也就是提供各类“原子操作”。

通过这种形式，开发者可以更专注于构建自己的高阶 Agent，而无需关心底层 UI 操作的实现细节，并且时刻获得满意的成功率。

移动端能力增强

iOS 改进

新增 WebDriverAgent 5.x-7.x 全版本兼容
新增 WebDriver Clear API 支持，解决动态输入框问题
提升设备兼容性

Android 改进

新增截图轮询回退机制，提升远程设备稳定性
新增屏幕方向自动适配（displayId 截图）
新增 YAML 脚本 runAdbShell 支持

跨平台

在 Agent 实例上暴露系统操作接口，包括 Home、Back、RecentApp 等

API 变更

方法重命名（向后兼容）

改名 aiAction() → aiAct()（旧方法保留，有弃用警告）
改名 logScreenshot() → recordToReport()（旧方法保留，有弃用警告）

环境变量重命名（向后兼容）

改名 OPENAI_API_KEY → MODEL_API_KEY（新变量优先，旧变量作为备选）
改名 OPENAI_BASE_URL → MODEL_BASE_URL（新变量优先，旧变量作为备选）

微信关注我们

原文链接：https://www.oschina.net/news/392323

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

作者：无哲、言合一、前言：Dify 的规模化挑战 Dify 是当前最受欢迎的低代码 LLM 应用开发平台之一，在 Github 上已斩获 120k+ 的星标数。国内外有众多企业基于 Dify 构建自己的智能体应用。阿里云可观测团队既是 Dify 的深度用户，也是社区的活跃贡献者。在大规模生产实践中，我们发现 Dify 在高负载场景下面临显著的数据库性能瓶颈：其执行引擎高度依赖 PostgreSQL，单次 Chat 请求可能触发数百甚至上千次数据库访问；与此同时，Worker 进程在知识库索引构建、Trace 追踪等任务中也会持续写入大量数据。这频繁导致 DB 连接池打满、慢查询频发等问题，已成为制约 Dify 集群横向扩展与并发能力的关键瓶颈。二、现状与挑战：Dify 存储机制痛点分析数据分布现状 Dify 的数据主要分为三类： Meta类数据：租户、应用、工作流、工具等配置信息；运行时日志：工作流执行明细、会话历史、消息记录等；文件类数据：用户上传文件、知识库文档、多模态输出等（通常存于对象存储）。其中Meta 与运行日志均存储在 PostgreSQL 中，运行时日...

2025-12-26

112

Blueking Lite 是一个AI First的轻量版运维产品，具有部署资源要求低、使用成本低、渐进式体验等特点，为运维管理员提供日常运维中的必备工具。 📢 【bklite 平台 · 本周更新速递】 🖥️ 节点管理 1. 优化各页面中英文双语翻译准确性 2. 修复平台更新后容器节点采集器文件丢失等问题 🔧 CMDB 1. 优化资产采集链路，提升执行效率 2. 优化批量导入资产的组织校验 3. 修复云平台无法获取区域等问题 📊 监控系统 1. 优化Docker监控接入页面 2. 修复监控策略指标搜索异常等问题 🤖 OpsPilot 1. 工具参数新增支持：密码/数字/Bool类型 2. 修复PDF文件解析过程中权限校验失败等问题 🔗 体验环境：https://bklite.canway.net/ 🏠 官方网站：https://bklite.ai/

2025-12-26

109

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。