乐于分享
好东西不私藏

AI自动化工具Midscene重要更新:鸿蒙、PC端全覆盖,新增模型、Skills及报告解析能力

AI自动化工具Midscene重要更新:鸿蒙、PC端全覆盖,新增模型、Skills及报告解析能力

整理编辑|TesterHome社区

2026年4月16日,字节跳动 Web Infra 团队开源的AI视觉驱动跨端UI自动化工具 Midscene发布近三月核心更新,正式实现桌面端、HarmonyOS(鸿蒙)、iOS、Android全设备统一自动化覆盖,并同步开放 MCP/Skills 双生态接入、升级报告解析能力、扩充主流视觉大模型支持、强化aiAct深度思考能力,全面破解传统跨端自动化设备割裂、适配繁琐、生态封闭、复杂任务难落地的行业痛点。

PC+鸿蒙正式接入,统一接口覆盖多系统

本次更新最核心突破是新增 PC 桌面端与鸿蒙(HarmonyOS)端自动化支持,结合已有的 iOS、Android 能力,Midscene 已经形成一套覆盖桌面端与多移动平台的统一自动化路径。

已关注

关注

重播 分享

PC自动化:自动发推

已关注

关注

重播 分享

鸿蒙自动化:查看电池健康

1. PC 端自动化:全面支持三大系统,零代码+脚本双模式

系统覆盖:支持 Windows、macOS、Linux 三大桌面操作系统,可以驱动原生键盘与鼠标,操作任意桌面应用,适配桌面应用自动化测试。

开发者可以:

  • 零代码验证:通过@midscene/computer-playground快速可视化验证自动化流程;

  • 脚本开发:基于@midscene/computer编写 JavaScript 脚本,支持在 Linux CI 环境中通过 Xvfb 运行无头桌面自动化。

import { agentFromComputer } from'@midscene/computer';const agent = await agentFromComputer({  aiActionContext: '你正在控制一台桌面计算机',});await agent.aiAct('将鼠标移动到屏幕中心');await agent.aiAssert('屏幕有可见内容');

2. 鸿蒙端自动化:填补生态空白,标准接入兼容统一

  • 连接方式:Midscene 提供 @midscene/harmony,依托 HDC 连接鸿蒙设备,将鸿蒙纳入统一自动化体系;

  • 接口复用:直接沿用aiAct/aiQuery/aiAssert等核心统一接口,无需重新学习;

  • 报告能力:执行后输出 HTML 报告,支持回放与调试,完美适配鸿蒙应用开发测试需求。

await agent.launch('com.huawei.hmos.settings');await agent.aiAct('scroll down one screen');const items = await agent.aiQuery('string[], 列表中可见的所有设置项名称');

至此,Midscene 实现一次开发、全端运行,彻底消除多设备重复适配成本。

详情参考:PC 桌面入门指南[1]HarmonyOS 开始使用[2]iOS 开始使用[3]Android 开始使用[4]

面向开放:MCP+Skills双路径,融入AI Agent生态

Midscene 从 “自研自用工具” 转向开放式能力平台,提供两种标准化接入方式,支持上层 Agent、研发平台、AI 助手直接调用。

1. MCP(Midscene Control Protocol):设备能力服务化

能力封装:将浏览器、Android、iOS、PC 设备能力封装为标准化 MCP 服务,提供官方封装包:

  • @midscene/android-mcp

  • @midscene/ios-mcp

  • @midscene/computer-mcp

  • @midscene/web-bridge-mcp

自定义扩展:开发者可基于mcpKitForAgent 搭建专属 MCP Server,将截图、点击、滚动等原子操作接入自有 Agent 体系。

2. Skills:AI 编程助手直连调用

借助 Skills 能力,Claude Code、OpenClaw 等 AI 编程助手能够直接调用 Midscene CLI,实现浏览器、桌面、Android、iOS 与 HarmonyOS 设备的操控。

安装方式例如:

npx skills add web-infra-dev/midscene-skills -a claude-code

安装后,AI 助手就可以通过自然语言直接触发设备操作,示例指令:

Open photo app, see what is the first photo in the album.

详情参考:MCP[7]Skills[8]


报告能力升级:从 “人工查看” 到 “工具可消费”,支持拆分与Markdown导出

Midscene 将报告从仅用于人工调试的 HTML 页面,升级为可被二次处理的标准化数据产物,打通自动化结果全链路复用。

核心能力

  1. 数据提取:支持导出报告内原始截图、JSON 结构化数据;
  2. 格式转换:可直接将 HTML 报告转换为 Markdown 格式,适配文档系统、知识库、测试归档;
  3. 生态联动:转换后的 Markdown 可结合 Remotion Skill 生成自动化执行回放视频。

报告示例

开发者可以把 HTML 报告文件解析为这样一份 Markdown 文件:

在此基础上,还可结合 Remotion Skill 对该 Markdown 文件进行解析,进而生成个性化的回放视频。

视频生成结果如下:

以下视频来源于
ByteDance Web Infra

已关注

关注

重播 分享

详情参考:解析报告文件[9]


新模式支持:兼容智谱、千问、豆包多款视觉大模型

Midscene 持续完善模型适配,新增 4 款高性能视觉大模型,支持操作与理解模型分离配置,满足不同精度、成本需求。

新增支持模型包括:

  • 智谱 GLM-V 系列 glm-5v-turbo,glm-4.6v

  • 智谱开源手机自动化模型 auto-glm

  • 千问qwen3.6-plus

  • 豆包doubao-seed-2.0

配置方式(以智谱 GLM-V 为例)

通过环境变量快速配置,需注意区分 MIDSCENE_MODEL_FAMILY  字段:

glm-4.6vglm-5v-turbo都应配置为glm-v
MIDSCENE_MODEL_BASE_URL="https://open.bigmodel.cn/api/paas/v4"MIDSCENE_MODEL_API_KEY="..."MIDSCENE_MODEL_NAME="glm-4.6v"MIDSCENE_MODEL_FAMILY="glm-v"

灵活拆分:可单独配置 Insight 模型,将 “设备操作” 与 “页面理解” 任务分离,提升执行效率。

详情参考:模型策略[5]常用模型配置[6]

核心能力强化:aiAct 支持深度思考,复杂任务规划准确率跃升

Midscene 为核心接口aiAct新增 deepThink(深度思考) 能力,针对复杂场景优化任务规划逻辑。

适用场景:

目标驱动任务、复杂表单填写、多步骤流程执行、条件分支判断等传统自动化难以处理的场景。

使用方式:

通过deepThink: true参数开启,模型在规划阶段完成充分推理:

特性说明:开启后可显著提升规划准确率,会小幅增加执行耗时,建议在关键核心流程中按需启用。

详情参考:关于-aiact-方法的-deepthink-参数[10]

其他新增特性

  • 文件上传支持:完善文件操作能力,适配含上传流程的自动化场景;

  • CDP 浏览器连接模式:新增 YAML 脚本运行器的 CDP 连接方式,提升浏览器自动化稳定性;

  • deepLocate 深度定位:强化界面元素定位能力,进一步降低识别误差,提升执行成功率。

官方参考资料

本次更新所有功能均提供完整官方文档,开发者可快速上手:

[1] PC 桌面入门指南:
https://midscenejs.com/zh/computer-getting-started
[2] HarmonyOS 开始使用: 
https://midscenejs.com/zh/harmony-getting-started
[3] iOS 开始使用: 
https://midscenejs.com/zh/ios-getting-started
[4] Android 开始使用:
https://midscenejs.com/zh/android-getting-started
[5] 模型策略: 
https://midscenejs.com/zh/model-strategy
[6] 常用模型配置: 
https://midscenejs.com/zh/model-common-config
[7] MCP: 
https://midscenejs.com/zh/mcp
[8] Skills: 
https://midscenejs.com/zh/skills
[9] 解析报告文件: 
https://midscenejs.com/zh/consume-report-file
[10] 关于-aiact-方法的-deepthink-参数: 
https://midscenejs.com/zh/model-strategy#关于-aiact-方法的-deepthink-参数
[11] 文件上传支持: 
https://midscenejs.com/zh/api#agentaitap
[12] CDP 浏览器连接模式: 
https://midscenejs.com/zh/yaml-script-runner#使用-cdp-连接模式
[13] deepLocate 深度定位: 
https://midscenejs.com/zh/api#深度定位deeplocate

行业价值与未来展望

本次迭代让 Midscene 实现三大突破:

  • 国产化适配:填补鸿蒙生态标准化自动化工具空白,助力国产化应用开发测试;

  • 效率革命:全端统一接口 + 自然语言驱动,大幅降低脚本开发与维护成本;

  • 生态融合:MCP+Skills 开放接入,让自动化能力深度融入 AI Agent、企业工作流、RPA 等多元场景。

作为 AI 驱动的跨端自动化工具,Midscene 正从研发测试工具,向全场景智能自动化基础设施演进,未来有望拓展物联网、车机等更多设备场景,重新定义 AI 自动化的技术标准与使用边界。


传统QA测不动LLM:你的AI应用正在默默“撒谎”

从“盯日志”到“看结论”:用AI重构测试失败分析流程

Yelp千节点Cassandra零停机升级全流程实战,藏着一套完整的测试核心思路

告别脆弱测试!AI代理+Playwright,用组件感知重构E2E(端到端)测试体系

测试质量进阶|前沿趋势融合(5)智能测试体系全景总结与企业级落地路径

必更!Playwright新版布v1.59解锁新特性,Screencast赋能AI代理测试

AI IDE驱动测试革命:Cursor、Trae、Kiro 如何让软件测试从“负担”变为“生产力引擎”