AI自动化工具Midscene重要更新:鸿蒙、PC端全覆盖,新增模型、Skills及报告解析能力-夜雨聆风

AI自动化工具Midscene重要更新:鸿蒙、PC端全覆盖,新增模型、Skills及报告解析能力

整理编辑｜TesterHome社区

2026年4月16日，字节跳动 Web Infra 团队开源的AI视觉驱动跨端UI自动化工具 Midscene发布近三月核心更新，正式实现桌面端、HarmonyOS（鸿蒙）、iOS、Android全设备统一自动化覆盖，并同步开放 MCP/Skills 双生态接入、升级报告解析能力、扩充主流视觉大模型支持、强化aiAct深度思考能力，全面破解传统跨端自动化设备割裂、适配繁琐、生态封闭、复杂任务难落地的行业痛点。

PC+鸿蒙正式接入，统一接口覆盖多系统

本次更新最核心突破是新增 PC 桌面端与鸿蒙（HarmonyOS）端自动化支持，结合已有的 iOS、Android 能力，Midscene 已经形成一套覆盖桌面端与多移动平台的统一自动化路径。

已关注

关注

重播分享赞

视频详情

PC自动化：自动发推

已关注

关注

重播分享赞

视频详情

鸿蒙自动化：查看电池健康

1. PC 端自动化：全面支持三大系统，零代码+脚本双模式

系统覆盖：支持 Windows、macOS、Linux 三大桌面操作系统，可以驱动原生键盘与鼠标，操作任意桌面应用，适配桌面应用自动化测试。

开发者可以：

零代码验证：通过@midscene/computer-playground快速可视化验证自动化流程；
脚本开发：基于@midscene/computer编写 JavaScript 脚本，支持在 Linux CI 环境中通过 Xvfb 运行无头桌面自动化。

import { agentFromComputer } from'@midscene/computer';const agent = await agentFromComputer({  aiActionContext: '你正在控制一台桌面计算机',});await agent.aiAct('将鼠标移动到屏幕中心');await agent.aiAssert('屏幕有可见内容');

2. 鸿蒙端自动化：填补生态空白，标准接入兼容统一

连接方式：Midscene 提供 @midscene/harmony，依托 HDC 连接鸿蒙设备，将鸿蒙纳入统一自动化体系；
接口复用：直接沿用aiAct/aiQuery/aiAssert等核心统一接口，无需重新学习；
报告能力：执行后输出 HTML 报告，支持回放与调试，完美适配鸿蒙应用开发测试需求。

await agent.launch('com.huawei.hmos.settings');await agent.aiAct('scroll down one screen');const items = await agent.aiQuery('string[], 列表中可见的所有设置项名称');

至此，Midscene 实现一次开发、全端运行，彻底消除多设备重复适配成本。

详情参考：PC 桌面入门指南^[1]、HarmonyOS 开始使用^[2]、iOS 开始使用^[3]、Android 开始使用^[4]

面向开放：MCP+Skills双路径，融入AI Agent生态

Midscene 从 “自研自用工具” 转向开放式能力平台，提供两种标准化接入方式，支持上层 Agent、研发平台、AI 助手直接调用。

1. MCP（Midscene Control Protocol）：设备能力服务化

能力封装：将浏览器、Android、iOS、PC 设备能力封装为标准化 MCP 服务，提供官方封装包：

@midscene/android-mcp
@midscene/ios-mcp
@midscene/computer-mcp
@midscene/web-bridge-mcp

自定义扩展：开发者可基于mcpKitForAgent 搭建专属 MCP Server，将截图、点击、滚动等原子操作接入自有 Agent 体系。

2. Skills：AI 编程助手直连调用

借助 Skills 能力，Claude Code、OpenClaw 等 AI 编程助手能够直接调用 Midscene CLI，实现浏览器、桌面、Android、iOS 与 HarmonyOS 设备的操控。

安装方式例如：

npx skills add web-infra-dev/midscene-skills -a claude-code

安装后，AI 助手就可以通过自然语言直接触发设备操作，示例指令：

Open photo app, see what is the first photo in the album.

详情参考：MCP^[7]、Skills^[8]

报告能力升级：从 “人工查看” 到 “工具可消费”，支持拆分与Markdown导出

Midscene 将报告从仅用于人工调试的 HTML 页面，升级为可被二次处理的标准化数据产物，打通自动化结果全链路复用。

核心能力

数据提取：支持导出报告内原始截图、JSON 结构化数据；
格式转换：可直接将 HTML 报告转换为 Markdown 格式，适配文档系统、知识库、测试归档；
生态联动：转换后的 Markdown 可结合 Remotion Skill 生成自动化执行回放视频。

报告示例

开发者可以把 HTML 报告文件解析为这样一份 Markdown 文件：

在此基础上，还可结合 Remotion Skill 对该 Markdown 文件进行解析，进而生成个性化的回放视频。

视频生成结果如下：

以下视频来源于

ByteDance Web Infra

已关注

关注

重播分享赞

视频详情

详情参考：解析报告文件^[9]

新模式支持：兼容智谱、千问、豆包多款视觉大模型

Midscene 持续完善模型适配，新增 4 款高性能视觉大模型，支持操作与理解模型分离配置，满足不同精度、成本需求。

新增支持模型包括：

智谱 GLM-V 系列 glm-5v-turbo，glm-4.6v
智谱开源手机自动化模型 auto-glm
千问qwen3.6-plus
豆包doubao-seed-2.0

配置方式（以智谱 GLM-V 为例）

通过环境变量快速配置，需注意区分 MIDSCENE_MODEL_FAMILY 字段：

glm-4.6v和glm-5v-turbo都应配置为glm-v：

MIDSCENE_MODEL_BASE_URL="https://open.bigmodel.cn/api/paas/v4"MIDSCENE_MODEL_API_KEY="..."MIDSCENE_MODEL_NAME="glm-4.6v"MIDSCENE_MODEL_FAMILY="glm-v"

灵活拆分：可单独配置 Insight 模型，将 “设备操作” 与 “页面理解” 任务分离，提升执行效率。

详情参考：模型策略^[5]、常用模型配置^[6]

核心能力强化：aiAct 支持深度思考，复杂任务规划准确率跃升

Midscene 为核心接口aiAct新增 deepThink（深度思考）能力，针对复杂场景优化任务规划逻辑。

适用场景：

目标驱动任务、复杂表单填写、多步骤流程执行、条件分支判断等传统自动化难以处理的场景。

使用方式：

通过deepThink: true参数开启，模型在规划阶段完成充分推理：

特性说明：开启后可显著提升规划准确率，会小幅增加执行耗时，建议在关键核心流程中按需启用。

详情参考：关于-aiact-方法的-deepthink-参数^[10]

其他新增特性

文件上传支持：完善文件操作能力，适配含上传流程的自动化场景；
CDP 浏览器连接模式：新增 YAML 脚本运行器的 CDP 连接方式，提升浏览器自动化稳定性；
deepLocate 深度定位：强化界面元素定位能力，进一步降低识别误差，提升执行成功率。

官方参考资料

本次更新所有功能均提供完整官方文档，开发者可快速上手：

[1] PC 桌面入门指南:

https://midscenejs.com/zh/computer-getting-started

[2] HarmonyOS 开始使用:

https://midscenejs.com/zh/harmony-getting-started

[3] iOS 开始使用:

https://midscenejs.com/zh/ios-getting-started

[4] Android 开始使用:

https://midscenejs.com/zh/android-getting-started

[5] 模型策略:

https://midscenejs.com/zh/model-strategy

[6] 常用模型配置:

https://midscenejs.com/zh/model-common-config

[7] MCP:

https://midscenejs.com/zh/mcp

[8] Skills:

https://midscenejs.com/zh/skills

[9] 解析报告文件:

https://midscenejs.com/zh/consume-report-file

[10] 关于-aiact-方法的-deepthink-参数:

https://midscenejs.com/zh/model-strategy#关于-aiact-方法的-deepthink-参数

[11] 文件上传支持:

https://midscenejs.com/zh/api#agentaitap

[12] CDP 浏览器连接模式:

https://midscenejs.com/zh/yaml-script-runner#使用-cdp-连接模式

[13] deepLocate 深度定位:

https://midscenejs.com/zh/api#深度定位deeplocate

行业价值与未来展望

本次迭代让 Midscene 实现三大突破：

国产化适配：填补鸿蒙生态标准化自动化工具空白，助力国产化应用开发测试；
效率革命：全端统一接口 + 自然语言驱动，大幅降低脚本开发与维护成本；
生态融合：MCP+Skills 开放接入，让自动化能力深度融入 AI Agent、企业工作流、RPA 等多元场景。

作为 AI 驱动的跨端自动化工具，Midscene 正从研发测试工具，向全场景智能自动化基础设施演进，未来有望拓展物联网、车机等更多设备场景，重新定义 AI 自动化的技术标准与使用边界。

传统QA测不动LLM：你的AI应用正在默默“撒谎”

从“盯日志”到“看结论”：用AI重构测试失败分析流程

Yelp千节点Cassandra零停机升级全流程实战，藏着一套完整的测试核心思路

告别脆弱测试！AI代理+Playwright，用组件感知重构E2E（端到端）测试体系

测试质量进阶｜前沿趋势融合(5)智能测试体系全景总结与企业级落地路径

必更！Playwright新版布v1.59解锁新特性，Screencast赋能AI代理测试

AI IDE驱动测试革命：Cursor、Trae、Kiro 如何让软件测试从“负担”变为“生产力引擎”