关于智能体(AI Agent),不得不看的一篇总结

（《钢铁侠》电影中的科幻场景正在慢慢成为现实）

当托尼·斯塔克在《钢铁侠》中与J.A.R.V.I.S开展自然对话，指令AI助手操控各类系统、完成复杂任务时，这一幕曾被认为是遥不可及的科幻场景。但随着大型语言模型（LLM）与多模态大模型（MLLM）的迅猛发展，这类智能助手——如今被称为“智能体”（Agent）——正逐步从科幻走进现实。

近年来，从OpenAI的ComputerUse，到移动端的SpiritSight与MobileFlow，智能体技术在学术研究与产业应用领域均迎来了前所未有的发展热潮。本文将整合当前最前沿的研究成果，包括

AppAgentX：Evolving GUI Agents as Proficient Smartphone Users
MobileFlow：A Multimodal LLM for Mobile GUI Agent、
OS Agents：A Survey on MLLM-based Agents for General Computing Devices Use
SpiritSight Agent：Advanced GUI Agent with One Look

为读者全面总结智能体技术，重点聚焦发展最为迅猛的GUI智能体领域。

全套AI Agent智能体学习籽料获取

↓↓↓

1. 智能体的定义与分类

1.1 什么是智能体

智能体（Agent）是一种可感知环境、制定决策并采取行动以达成特定目标的AI系统，通常具备记忆、规划、行为执行、工具使用等基本能力，如下图所示，其中规划环节包含思维链、自我反思与目标分解功能。与传统AI系统相比，智能体具有自主性、持续性和适应性，可在复杂环境中持续学习并优化自身行为。

1.2 OS Agent：操作系统智能体

OS Agent（操作系统智能体）是一类特殊的智能体，其通过操作计算机、智能手机等计算设备的图形用户界面（GUI）完成各类任务。根据最新的OS Agent综述研究，这类智能体包含三个关键组成部分：

环境：OS Agent运行的操作系统环境，如Windows、macOS、Android等；
观察空间：智能体获取环境信息的途径，如界面截图、DOM结构等；
行动空间：智能体可执行的操作集合，如点击、输入、滑动等。

（来源于论文：OS Agents：A Survey on MLLM-based Agents for General Computing Devices Use）

1.3 智能体的主要分类

依据输入模态与技术实现方式，GUI智能体可分为三类：

基于语言的智能体：仅以HTML/XML等文本描述作为输入；
基于视觉的智能体：仅以屏幕截图作为输入；
视觉-语言混合智能体：同时采用屏幕截图与文本描述作为输入。

其中，基于视觉的智能体（如SpiritSight）与视觉-语言混合智能体（如MobileFlow），凭借其出色的跨平台兼容性和丰富的感知能力，成为当前的研究热点。

（来源于论文：OS Agents：A Survey on MLLM-based Agents for General Computing Devices Use）

2. 智能体的核心能力

现代智能体，尤其是OS/GUI智能体，需具备以下核心能力：

2.1 理解能力

理解能力是智能体解读用户指令、明确任务目标的能力。最新研究如MobileFlow引入了GUI Chain-of-Thought（CoT）技术，使模型可模拟人类推理过程，从而更精准地理解复杂任务。

2.2 感知与定位能力

感知能力是智能体理解环境的基础，对GUI智能体而言，核心感知挑战是元素定位（Element Grounding）：

SpiritSight提出的Universal Block Parsing（UBP）方法，解决了动态高分辨率输入中的歧义问题；

MobileFlow的混合视觉编码器支持可变分辨率输入，提升了对细节的感知能力；

OpenAI的ComputerUse通过闭环视觉-操作系统，直接分析整个屏幕并执行精确操作。

2.3 规划能力

规划能力是智能体将复杂任务分解为步骤序列的能力。根据OS Agent综述，规划方法分为两类：

全局规划：任务开始前制定完整的操作序列；

迭代规划：根据环境反馈动态调整操作计划。

例如MobileFlow采用的四步法（观察、推理、行动、总结），就是一种高效的迭代规划框架。

2.4 操作能力

操作能力是智能体执行具体行动的能力，典型的GUI操作包括：

鼠标/触摸操作：点击、长按、拖拽；

键盘操作：文本输入、快捷键；

导航操作：滚动、翻页、切换标签等。

3. 当前智能体技术前沿

3.1 OpenAI的ComputerUse

OpenAI的ComputerUse是一项革命性技术，可使AI代理直接操作计算机界面：

技术原理：基于Computer-Using Agent (CUA)模型，结合GPT-4o的视觉与推理能力；
工作流程：指令理解→动作生成→执行与反馈→状态理解→迭代改进；
支持环境：浏览器、macOS、Windows、Ubuntu（暂不支持移动平台）；
应用场景：自动化测试、探索式测试、回归测试、跨平台一致性测试等。

（有视觉能力的智能体）

3.2 SpiritSight：视觉导向的GUI智能体

SpiritSight代表了基于视觉的GUI智能体的最新进展：

核心创新：提出GUI-Lasagne多级大规模GUI数据集与Universal Block Parsing方法；
技术特点：端到端、纯视觉感知，无需HTML/XML辅助；
性能表现：在Multimodal-Mind2Web等多个基准测试中优于现有方法；
跨语言能力：通过小规模目标语言数据微调，可实现跨语言（如中文）GUI操作。

（来源论文：SpiritSight Agent：Advanced GUI Agent with One Look。SpiritSight智能体概述：借助一个大规模、多层次、高质量的预训练数据集，使 SpiritSight具备三个层次的全面GUI知识。此外引入了一种通用模块解析方法，以增强 SpiritSight的基础能力）

3.3 MobileFlow：移动设备专用智能体

MobileFlow专注于移动设备场景的智能体设计：