能理解目标
能拆解步骤
能调用工具
能感知执行结果
能根据反馈修正下一步动作
用户目标输入层 任务理解与规划层 工具与执行层 状态感知与反馈层 结果收敛与输出层
帮我整理最近 7 天某产品的用户反馈
帮我打开后台,查看某订单状态并汇总异常
帮我去网页上搜资料,形成一份报告
帮我批量执行某类重复操作
接口参数明确
字段含义确定
调用路径固定
异常流程可预期
模糊的
不完整的
带上下文的
带主观目的的
用户真正想要什么结果? 这个目标是否可以拆成多个子任务? 哪些步骤需要调用工具? 哪些地方需要等待外部反馈? 最后输出应该是什么形式?
识别目标
提炼约束
拆解流程
定义输入输出
获取反馈数据 按主题分类 识别高频问题 区分情绪性反馈和真实需求 归纳功能问题、体验问题、运营问题 生成结构化分析结论 输出建议清单
当前状态是什么
距离目标还差什么
下一步最优动作是什么
页面加载慢
按钮位置变了
登录状态失效
页面元素识别不准
前一步结果和预期不一致
这一步失败,是重试,还是换路径?
页面没找到按钮,是滚动,还是搜索,还是返回?
结果不完整,是补采集,还是先输出部分结论?
理解文本
生成推理
做决策建议
决策层再强,没有执行链路,业务跑不起来
报表层再好,没有数据采集,也只是空中楼阁
工具接得够不够多
工具是否稳定
工具返回是否规范
工具失败后有没有补偿机制
页面有没有真正打开成功
输入框里的内容是否正确填入
按钮点击后有没有响应
文件是否真的生成成功
接口返回是不是异常
当前任务距离目标还有多远
可观测性
状态回传
异常检测
闭环控制
入参格式可校验
服务接口可约束
数据库结构固定
返回码规范统一
页面会改版
网络会波动
页面元素会异步加载
某一步操作可能无提示失败
不同网站交互风格完全不一样
原始任务目标
当前任务阶段
已完成的步骤
中间输出结果
外部环境状态
错误与重试记录
最终待整理的材料
session
context
task state
execution log
intermediate result
checkpoint
用户输入目标 任务解释,识别意图、约束和输出目标 任务拆解,生成子任务与执行顺序 选择工具,如浏览器、文件、接口、命令 执行动作 读取反馈,如页面状态、执行结果、错误信息 更新上下文与任务状态 判断是否继续、重试、改道或结束 结果汇总与输出
一个带状态的工作流引擎
一个具备决策能力的任务调度中心
一个弱结构化环境下的自动执行系统
固定节点
明确规则
可预测路径
节点可以临时生成
路径可以运行中调整
同一步骤的执行方式可能变化
登录系统
下载报表
录入表格
固定路径点击
RPA 依赖预定义流程
OpenClaw 更依赖实时判断
脚本
Job
ETL
API 任务
模型思考
工具调用
页面交互
文件处理
人机环境中的动作
任务可恢复
工具可替换
状态可追踪
日志可审计
异常可兜底
结果可校验
资料收集
多页面信息整理
固定格式结果汇总
常规后台核查
批量搬运类操作
用户反馈归类
竞品信息整理
内容选题辅助
需求初稿拆解
测试清单生成
核心交易操作
财务扣费
高风险删除或修改
不可逆生产指令
多任务并发
优先级控制
队列调度
资源隔离
业务术语
常用流程
组织约束
输出规范
谁发起了任务
任务做了哪些动作
哪一步失败了
为什么这么决策
结果是否可追溯
用户反馈分析技能
竞品整理技能
测试巡检技能
内容选题技能
数据核对技能
上层:人类目标与业务意图
下层:浏览器、接口、文件、系统能力
中间:模型决策、状态管理、任务编排
理解任务
规划路径
调用能力
处理反馈
收敛结果
目标
上下文
工具
状态
任务流
谁的任务编排更稳
谁的工具生态更全
谁的状态管理更强
谁的技能封装更复用
谁更适合接真实业务
会自动点网页
会帮你跑流程
会帮你做任务
上层接用户目标
中层做任务规划与决策
下层接各种执行工具
周期性接收环境反馈
持续更新状态并推进任务完成
哪些是“判断”
哪些是“执行”
哪些是“收集”
哪些是“整理”
哪些是“切换系统”
夜雨聆风