AI 时代必懂词汇表:Agent、LLM、MCP、Skills 到底什么关系?
朋友问我:”你用 AI 管 AI?能不能说清楚 Agent、LLM、MCP 到底有什么区别?”
我发现,网上全是术语解释,但没一篇文章告诉普通人:这些东西跟我有什么关系?
所以我自己写一篇。用我带 6 个 AI 助理工作两个月的真实经验,把这些词一次性讲透。
引子:一次翻车对话
上周,朋友问我一个问题:
“你说的 Agent 是什么?和 ChatGPT 有什么区别?MCP 又是什么鬼?”
我一愣。这些词我每天都在用,但要跟一个非技术背景的人讲清楚,竟然不知道从哪开始。
我试着解释:
“LLM 就是大语言模型……”
“Agent 是在 LLM 基础上加了工具调用能力的……”
“MCP 是模型上下文协议,用来连接外部工具的……”
朋友的眼神逐渐迷离。
我意识到一个问题:这些概念不是独立存在的,它们是一套系统里的不同层级。 孤立地讲任何一个,都像是在只介绍轮胎就讲完了汽车。
而且我发现一个现象:现在每个人都在造新词。 今天一个”智能体”,明天一个”协议”,后天一个”编排平台”。技术圈造词的速度,已经远远超过了普通人理解的速度。
但如果你剥开这些词的外衣,会发现它们之间的关系其实很简单。
今天,我用自己带 6 个 AI 助理工作的真实经验——从搭建到踩坑再到稳定运行——把这六个词一次性讲清楚。
第一层:LLM — AI 的”大脑”
LLM = Large Language Model,大语言模型。
这是我们所有 AI 应用的基础。没有 LLM,后面所有东西都不存在。
ChatGPT 背后是 GPT-4,Claude 背后是 Claude 3,我团队里用的是 Qwen、GLM、MiniMax 等国产模型。
LLM 到底是什么?
简单说,LLM 就是一个超级加强版的”文字接龙”。
它读过互联网上几乎所有的文字——网页、书籍、代码、论文。然后它学会了:给定一段文字,猜下一个字最可能是什么。
但这个”猜”不是瞎猜,而是基于它读过的所有内容做概率计算。所以当它”猜”了几千几万次之后,就变成了我们看到的”回答问题”、”写文章”、”写代码”。
LLM 能做什么?
能力 例子
理解自然语言 “帮我写封邮件给张总” → 它理解这是要写邮件
生成文本 文章、代码、邮件、诗歌、剧本
逻辑推理 数学题、编程题、分析题
翻译 中英日法德等几十种语言互译
总结 一万字的报告,浓缩成 500 字摘要
对话 多轮聊天,记住上下文
LLM 不能做什么?
这是关键。LLM 只是一个”会说话的脑子”。
它没有手脚,不能:
❌ 上网查今天的天气(它训练数据只到某个日期)
❌ 帮你发邮件(没有邮件客户端)
❌ 操作你电脑上的文件(没有文件系统访问权)
❌ 调 API(没有网络请求能力)
❌ 看图片(纯文本模型,除非是多模态版本)
它只能”说”,不能”做”。
真实案例:一封发不出去的邮件
有一次,我让 ChatGPT 帮我写一封重要的商务邮件。背景是:客户叫张总,要谈年框合作,预算 50 万,希望下周见面。
ChatGPT 写得非常好,格式规范、语气得体、重点突出。我满意地说:”帮我发出去吧。”
它回了一句:”抱歉,我没有发送邮件的能力。”
这就是 LLM 的边界——知识渊博,但手无缚鸡之力。它知道邮件应该怎么写,但不知道邮件应该怎么发。
常见 LLM 产品对比
模型 厂商 价格(每百万 token) 特点 适合场景
GPT-4o OpenAI $2.50 通用能力最强,生态成熟 通用对话、代码
Claude 3.5 Sonnet Anthropic $3.00 长文本理解最强,代码能力突出 长文档分析、编程
Qwen 3.5-Plus 阿里 ¥5-10 中文能力强,性价比高 中文场景、日常任务
GLM-5 智谱 ¥5-15 国产领先,工具调用能力强 Agent 场景
MiniMax-M2.5 MiniMax ¥3-8 中文对话场景优秀 对话、客服
Kimi 月之暗面 免费/付费 长上下文(200K) 长文档阅读
给小白的建议
怎么选 LLM?
中文为主:选国产模型(Qwen、GLM、Kimi),便宜且中文理解好
英文为主/编程:选 GPT-4o 或 Claude
预算有限:国产模型性价比远高于 OpenAI
尝鲜:先用免费版(ChatGPT 免费、Kimi 免费)
一个常见误区:以为越贵的模型越好。其实对于日常写邮件、翻译、总结,便宜的模型完全够用。贵的模型优势在:复杂推理、长文本处理、代码生成。
第二层:Agent — AI 的”身体”
Agent = 智能体,给 LLM 装上手脚和耳朵。
如果说 LLM 是”脑子”,Agent 就是”脑子 + 手脚 + 耳朵 + 记忆”。
为什么需要 Agent?
因为 LLM 只能”说”不能”做”。但我们的需求往往不只是”说”——我们想让 AI 帮我们做事。
比如:
不只是”告诉我明天天气”,而是”如果明天下雨,帮我取消户外会议”
不只是”帮我写封邮件”,而是”写完邮件发给张总,然后记到我的日历里”
不只是”分析一下这份数据”,而是”分析完生成图表,发到团队群里”
这些需求,LLM 做不到,但 Agent 可以。
Agent 是怎么工作的?
Agent 的核心机制叫做 “ReAct”(Reason + Act):
用户说:”帮我查明天上海天气”
↓
Agent 思考(Reason):用户需要天气信息,我有天气查询工具
↓
Agent 行动(Act):调用天气 API,传入城市=”上海”,日期=”明天”
↓
API 返回:明天上海,晴,18-25°C
↓
Agent 思考:信息拿到了,可以回复用户了
↓
Agent 回复:”明天上海晴天,气温 18-25 度,适合出行。”
这个过程,对用户来说是透明的。用户只说了一句话,Agent 自动完成了”理解→思考→行动→回复”的完整循环。
Agent 比 LLM 多了什么?
能力 LLM Agent
理解问题 ✅ ✅
生成回答 ✅ ✅
使用工具 ❌ ✅(搜索、API、文件操作)
记忆历史 ❌(单次对话) ✅(短期 session + 长期记忆文件)
自主规划 ❌ ✅(能把大任务拆解成小步骤)
多步骤执行 ❌ ✅(自动完成多步操作)
错误处理 ❌ ✅(工具调用失败会重试或换方案)
一个完整案例:从一句话到一件事
我的 AI 助理”丁小虾”就是一个 Agent。
有一天我说:”帮我查一下明天上海天气,如果是晴天就帮我约明天下午 3 点的会议室。”
丁小虾做了这些事:
🧠 理解意图:用户想知道天气,并根据天气决定是否约会议室
🌐 调用天气 API:获取明天上海的天气预报 → 晴天
📅 判断条件:晴天 → 需要约会议室
📅 调用日历 API:查看明天下午 3 点是否有空闲会议室
📅 调用日历 API:预订会议室
💾 记录到文件:把这次安排写入 MEMORY.md
💬 回复我:”明天上海晴天,已预订明天下午 3 点的 302 会议室。”
整个过程,我只说了一句话。如果只用 LLM,我最多只能得到天气信息,约会议室得自己动手。
Agent 的核心要素
一个完整的 Agent 需要五个要素:
要素 说明 类比
大脑 LLM,负责推理和生成 人的大脑
工具 搜索、文件操作、API 调用、数据库查询 人的手脚
记忆 短期记忆(session 对话历史)+ 长期记忆(文件/数据库) 人的记忆
规划 能把复杂任务拆解成可执行的步骤 人的计划能力
人格 角色设定(我是谁、我的职责、我的风格) 人的性格
我团队里的 Agent
我有 6 个 Agent,每个有不同的”人格”和职责:
Agent 角色 使用的 LLM 职责
丁小虾 个人助理 Qwen 3.5-Plus 统筹所有事情,早会主持,任务分配
程小虾 程序员 GLM-5 代码编写、技术实现、Bug 修复
安小虾 安全审计师 Qwen-Coder 代码审计、安全检查、漏洞分析
边虾 性能工程师 Qwen-Coder 性能测试、系统优化、压力测试
分小虾 数据分析师 Qwen-Max 数据分析、报告生成、趋势预测
规小虾 系统规划师 MiniMax-M2.5 架构设计、规范制定、方案评审
它们不是 6 个不同的 LLM,而是 6 个使用不同 LLM 的 Agent。每个 Agent 有自己的角色设定、工具集、记忆空间。
Agent 和 LLM 的本质区别
维度 LLM Agent
本质 一个模型(算法) 一个系统(模型 + 工具 + 记忆)
输入 文字 文字 + 工具返回结果
输出 文字 文字 + 工具调用
记忆 单次对话内有效 可跨对话持久化
能力 只能”说” 能”说”也能”做”
自主性 被动回答 主动规划和执行
给小白的建议
怎么判断你需要 LLM 还是 Agent?
如果你只需要 AI 回答问题、写文字、翻译 → LLM 就够了
如果你需要 AI 帮你操作工具、自动执行任务、记住历史 → 你需要 Agent
怎么选 Agent 平台?
平台 门槛 适合人群 价格
ChatGPT(内置 Agent) 零门槛 个人用户 订阅制
Coze/扣子 低代码 运营/产品 部分免费
Dify 低代码 开发者/企业 开源/付费
OpenClaw 需要部署 技术人员 开源免费
LangChain/LangGraph 纯代码 开发者 开源免费
第三层:Skills — AI 的”专业技能”
Skills = 技能包,告诉 Agent 怎么完成特定任务。
如果 Agent 是一个全能助理,Skills 就是它的”岗位培训手册”。
为什么需要 Skills?
Agent 虽然能使用工具、能规划任务,但它不知道具体的业务流程。
比如”记忆归档”这个任务:
Agent 知道它可以读文件、写文件
但它不知道:应该读哪个文件?提炼什么信息?写到哪?格式是什么?
Skills 就是解决这个问题的——它是一份结构化的操作手册,告诉 Agent 在什么场景下、做什么事、怎么做、注意什么。
一个真实 Skill 的完整内容
我的团队里有一个”记忆归档”技能(SKILL.md),完整内容如下:
# 记忆归档技能 v2.1
## 触发条件
– 每天凌晨 2 点自动执行(cron 调度)
– 用户说”归档今天的记忆”
## 执行步骤
1. 读取今天的对话记录(memory/YYYY-MM-DD.md)
2. 读取当前的长期记忆(MEMORY.md)
3. 从对话记录中提炼:
– 重要决策和原因
– 学到的教训
– 需要长期记住的信息
– 待办事项和截止日期
4. 将提炼内容合并到 MEMORY.md
5. 清理过时的临时文件
## 注意事项
– 不要记录密码、API Key 等敏感信息
– 保持摘要简洁,每条不超过 3 行
– 如果 MEMORY.md 超过 5000 字,先压缩再合并
– 归档完成后,在日志中记录时间和结果
## 错误处理
– 如果对话记录不存在 → 跳过,记录日志
– 如果 MEMORY.md 被其他进程锁定 → 等待 5 秒重试
– 如果提炼内容质量差 → 标注”需人工审核”
有了这个技能,我不用每次都说”帮我把今天的对话总结一下写到文件里,注意不要记录密码,保持简洁……”。我只需要说”归档”,Agent 就知道该做什么、怎么做、注意什么。
Skills 的技术实现
一个 Skill 通常包含:
文件 内容
SKILL.md 技能说明、触发条件、执行步骤、注意事项
scripts/ 可执行脚本(Python、Shell)
references/ 参考资料、API 文档、配置模板
Agent 加载 Skill 时,会读取 SKILL.md,理解这个技能的用途和流程,然后在需要时执行。
Skills 和 Agent 的关系
项目 Agent Skill
是什么 一个 AI 助理 一份操作手册
类比 一个员工 员工的岗位培训手册
数量 一个 Agent 可以安装多个 Skill 一个 Skill 可以被多个 Agent 安装
依赖 Agent 不依赖 Skill 也能工作(基础能力) Skill 必须依附于 Agent 才能执行
例子 丁小虾(个人助理) 记忆归档、新闻采集、邮件处理
我团队里的 Skills
技能 用途 安装 Agent 触发方式
记忆归档 自动整理每日对话到长期记忆 全员 每天凌晨 2 点自动
新闻采集 每天早上 7 点抓取新闻并推送 丁小虾 cron 定时
邮件处理 自动分类处理收件箱邮件 丁小虾 手动或定时
安全审计 代码/配置安全检查 安小虾 手动触发
性能测试 系统压测和优化建议 边虾 手动触发
公众号写作 从选题到成文的全流程 全员 早会分配
GitHub 集成 Issue/PR 自动化 程小虾 事件触发
Skills 的安装和共享
我的系统里有一个技能市场(ClawHub),可以搜索、安装、更新技能:
# 搜索技能
clawhub search “email”
# 安装技能
clawhub install gmail
# 更新所有技能
clawhub update –all
# 发布自己的技能
clawhub publish ./my-skill
这就像手机上的 App Store——技能开发者发布技能,用户一键安装。
给小白的建议
什么时候需要 Skills?
当你有一个重复性的任务,每次都要给 AI 说一遍流程
当你希望 AI 按标准流程做事,而不是自由发挥
当你想让 AI 学会你公司的特定业务逻辑
怎么判断一个 Skill 好不好?
好的 Skill 应该:
✅ 触发条件清晰(什么时候用)
✅ 执行步骤具体(怎么做)
✅ 边界条件明确(什么情况下不该用)
✅ 错误处理完善(出错了怎么办)
✅ 有示例和模板(直接能用)
第四层:MCP — AI 的”万能插头”
MCP = Model Context Protocol,模型上下文协议。
这是 Anthropic(Claude 的母公司)在 2024 年底提出的一个开放标准。它解决一个很实际的问题:
怎么让不同的 AI 模型,都能用同样的方式连接外部工具?
为什么需要 MCP?
没有 MCP 之前,每个 Agent 连接工具都要自己写代码。
假设我有 6 个 Agent,每个都需要查天气:
# 丁小虾的天气代码
def dingxiaoxia_get_weather(city):
response = requests.get(f”https://api.weather.com/{city}”)
return response.json()
# 程小虾的天气代码(另一套)
def chengxia_get_weather(city):
# 不同的实现方式
…
# 安小虾的天气代码(又一套)
def anxiaoxia_get_weather(city):
# 又不同的实现方式
…
6 个 Agent,6 套代码。每次新增一个工具,就要给 6 个 Agent 各写一遍。维护成本爆炸。
有了 MCP 之后:
天气服务 –[MCP 标准接口]–> MCP Server
MCP Server –[MCP 协议]–> Agent A(自动适配)
MCP Server –[MCP 协议]–> Agent B(自动适配)
MCP Server –[MCP 协议]–> Agent C(自动适配)
一个工具,一次开发,所有 Agent 都能用。
真实类比
MCP 就像 USB-C 接口。
以前:
苹果手机用 Lightning
安卓手机用 Micro-USB
华为用 Type-C
笔记本电脑用 USB-A
你出门要带 4 根线。
现在:
所有设备都用 USB-C
你只需要带一根线。
MCP 就是 AI 世界的 USB-C——统一接口,即插即用。
MCP 的技术原理
MCP 的核心是三个概念:
概念 说明 类比
MCP Server 提供工具的服务端 插座
MCP Client Agent 端的连接器 插头
MCP Protocol 通信协议标准 电压标准
一个 MCP Server 可以提供多个”工具”(Tools),每个工具有:
名称(如 get_weather)
描述(如”查询指定城市的天气”)
参数定义(如 city: string, date: string)
Agent 通过 MCP Client 发现这些工具,然后根据描述决定要不要调用、怎么调用。
我现在怎么用 MCP?
我的系统里用 mcporter(MCP 调用工具)来管理外部服务:
服务类型 MCP Server 示例 提供的工具
数据库 PostgreSQL MCP Server query, insert, update, delete
文件系统 Filesystem MCP Server read, write, list, search
Web 搜索 Brave Search MCP Server search, get_page
Git GitHub MCP Server create_issue, create_pr, list_repos
日历 Google Calendar MCP Server list_events, create_event, delete_event
配置方式(以 PostgreSQL 为例):
{
“mcpServers”: {
“postgres”: {
“command”: “npx”,
“args”: [“-y”, “@modelcontextprotocol/server-postgres”, “postgresql://localhost/mydb”],
“env”: {}
}
}
}
配置完之后,我的 6 个 Agent 都能直接调用数据库查询,不需要各自写代码。
MCP 的好处
好处 说明
一次开发,多处使用 一个 MCP Server,所有 Agent 都能用
热插拔 新增工具不需要重启 Agent
跨模型兼容 不管底层用 GPT 还是 Claude 还是 Qwen,工具调用方式一样
生态繁荣 社区开发 MCP Server,用户直接使用
MCP 的局限
局限 说明
延迟 多了一层协议转换,比直接调用慢一点(通常可忽略)
复杂度 需要额外部署 MCP Server
生态早期 标准还比较新,好用的 MCP Server 不够多
给小白的建议
你需要关心 MCP 吗?
不需要:如果你只是用 ChatGPT 聊天
需要:如果你在搭建 Agent 系统,需要连接多个外部工具
必须:如果你在多模型环境下工作,希望工具调用标准化
怎么开始用 MCP?
找一个现成的 MCP Server(社区有很多)
在你的 Agent 平台配置它
测试工具调用是否正常
逐步替换旧的硬编码方式
第五层:OpenClaw — AI 的”操作系统”
OpenClaw = 一个开源的 AI Agent 编排平台。
如果说:
LLM 是 CPU
Agent 是进程
Skills 是软件
MCP 是驱动
那 OpenClaw 就是操作系统——它把所有东西组织在一起,让它们协同工作。
为什么需要 OpenClaw?
如果你只有一个 Agent,可能不需要 OpenClaw。但当你有:
多个 Agent(分工协作)
多个渠道(企业微信、钉钉、Telegram)
定时任务(每天新闻、每周报告)
记忆管理(短期 + 长期)
技能系统(安装、更新、共享)
你就需要一个”操作系统”来管理这些复杂性。
OpenClaw 能做什么?
能力 说明 实际案例
多 Agent 管理 同时运行多个 Agent,各自独立会话 6 个 Agent 同时在线,互不干扰
任务编排 Agent 之间可以互相协作、分配任务 丁小虾分配任务→程小虾写代码→安小虾审查
多渠道接入 一个 Agent 可以同时接收多个渠道的消息 企业微信、钉钉、Telegram、飞书、Discord
定时任务 Cron 调度,定时执行任务 每天 7 点新闻、9 点早会、凌晨 2 点归档
记忆管理 短期 session + 长期 MEMORY.md 对话历史自动归档,关键信息长期保存
技能系统 Skills 的安装、更新、共享 ClawHub 技能市场,一键安装
安全控制 权限管理、操作审批、隐私保护 删除文件需确认,对外发布需审核
模型切换 不同 Agent 使用不同模型 程小虾用 GLM-5(代码强),丁小虾用 Qwen(中文强)
自动降级 主模型挂了自动切备用模型 Qwen 挂了自动切 MiniMax,不中断服务
我的实际架构
大丁(我)
↓
[企业微信 / 钉钉 / Telegram / 飞书]
↓
OpenClaw Gateway(中枢服务,24 小时运行)
↓
┌─────────────────────────────────────────────────────┐
│ OpenClaw Agent 编排层 │
│ │
│ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │
│ │丁小虾 │ │程小虾 │ │安小虾 │ │边虾 │ │
│ │主助理 │ │程序员 │ │安全员 │ │性能 │ │
│ └────────┘ └────────┘ └────────┘ └────────┘ │
│ ┌────────┐ ┌────────┐ │
│ │分小虾 │ │规小虾 │ │
│ │数据分析 │ │规划师 │ │
│ └────────┘ └────────┘ │
└─────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ 工具层 │
│ [MCP Servers] [Skills] [APIs] [数据库] [文件系统] │
└─────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ LLM 层 │
│ Qwen 3.5-Plus / GLM-5 / MiniMax-M2.5 / … │
└─────────────────────────────────────────────────────┘
我的日常使用场景
场景一:早会主持
每天早上 7 点,OpenClaw 自动执行:
6:00 → 晨间新闻采集(cron 任务)
7:00 → 给 6 个 Agent 发早会通知
7:30 → 收集各 Agent 回复
8:00 → 生成优先级列表,分配任务
9:00 → 推送到我的企业微信
整个过程,我只需要看结果,不需要手动操作。
场景二:文章写作
我要写一篇公众号文章:
丁小虾从选题池选定选题
分配给多个 Agent 分视角写素材(技术、安全、数据、规范)
各 Agent 完成后提交
丁小虾汇总、改写、排版
推送给我审核
我确认后发布
场景三:邮件处理
收到新邮件:
OpenClaw 自动拉取 pending 邮件
分类识别(行程/业务/广告/钓鱼)
行程邮件 → 记录到票券系统
业务邮件 → 通知我关键信息
广告邮件 → 自动归档
处理完成,标记已读
OpenClaw 和其他平台的关系
平台 定位 优势 劣势 适合场景
ChatGPT 单一 AI 对话 简单易用 不能多 Agent、不能持久化 日常问答
Coze/扣子 低代码 Bot 平台 拖拽式搭建 偏向单次任务,不支持持续对话 客服 Bot
Dify AI 应用开发平台 可视化编排 偏向应用构建,不是个人助理 企业应用
LangChain 开发框架 灵活 纯代码,门槛高 开发者
OpenClaw 个人 AI 助理系统 多 Agent+持续运行+多渠道 需要部署 个人/团队日常使用
给小白的建议
你需要 OpenClaw 吗?
你的情况 建议
只用 ChatGPT 聊天 不需要
想做一个 Bot 放在网站上 Coze/Dify 更合适
想让 AI 帮你管日常工作(邮件、日历、消息) 需要
想管理多个 AI 助理,分工协作 需要
想让 AI 24 小时运行,定时做事 需要
怎么开始?
先跑通一个 Agent(最简单的配置)
加上记忆管理(让 AI 记住历史)
加上定时任务(让 AI 自动做事)
逐步扩展到多 Agent、多渠道
第六层:Harness Engineering —— AI 的”缰绳工程学”
Harness = 缰绳。Harness Engineering = 制造缰绳、马鞍和整个驯马体系的底层基建学。
如果说 LLM 是一匹野马——强大、聪明,但不可控——那 Harness 就是你套在它身上的缰绳。
Harness 不是模型,不是 Agent,也不是平台。Harness 是连接你和 AI 的那层控制层。
它决定了:
AI 能做什么、不能做什么
AI 能访问哪些工具和数据
AI 出错时怎么回退
AI 怎么和你持续对话而不失忆
为什么 Harness Engineering 是 2026 年最火的新范式?
2026 年伊始,硅谷和国内 AI 圈出现了一个共识:
“过去半年大家都在卷模型(Model),而现在最赚钱、最前沿的团队,都在卷 Harness Engineering。”
为什么?因为模型能力已经够用了。GPT-4、Claude 3、Qwen 这些模型,理解和生成能力已经非常强。
但光有一个聪明的模型不够——你得知道怎么控制它、怎么让它安全地做事、怎么让它记住上下文、怎么让它调用正确的工具。
这就是 Harness Engineering 的价值。
Harness 包含什么?
一套完整的 Harness 系统通常包括:
组件 作用 类比
工具调用 让 AI 能使用外部 API、数据库、文件系统 给 AI 装上手脚
记忆管理 短期 session + 长期记忆,让 AI 不忘事 给 AI 装上记忆
权限控制 分级授权,敏感操作需确认 给 AI 套上缰绳
错误处理 工具调用失败时自动重试或换方案 给 AI 装上保险
人格设定 定义 AI 的角色、职责、风格 给 AI 赋予性格
会话管理 多用户隔离,不同人不同的对话 给 AI 分房间
真实案例:同一个模型,不同的 Harness
我做过一个实验:用同一个 Qwen 模型,但配不同的 Harness 配置。
配置 A(裸模型):
我:”帮我写封邮件”
模型:好的,请问收件人是谁?主题是什么?……
(来回 5 轮才写完,写完也不会发)
配置 B(加上 Harness——记忆+工具+权限):
我:”帮我给张总写封邮件,约下周见面谈年框”
AI:好的。查了一下您上次和张总是 3 月 15 号见的,聊的是 50 万预算。
邮件已写好并发送,同时记到了您的日历里。
(一轮搞定,邮件发了,日历更新了)
同一个模型,不同的 Harness,体验差了 10 倍。
这就是 Harness Engineering 的意义——不是拼模型,而是拼怎么控制模型。
我的 Harness 架构
在我的系统里,Harness 不是某一个具体的东西,而是一套体系:
我(大丁)
↓
[企业微信 / 钉钉 / Telegram] ← 渠道层
↓
OpenClaw Gateway ← 平台层(操作系统)
↓
┌─────────────────────────────────────┐
│ Harness 控制层 │
│ ┌─────────┐ ┌─────────┐ ┌───────┐ │
│ │记忆管理 │ │工具调用 │ │权限控制│ │
│ │(Session) │ │(MCP/Skills)│ │(审批) │ │
│ └─────────┘ └─────────┘ └───────┘ │
│ ┌─────────┐ ┌─────────┐ ┌───────┐ │
│ │人格设定 │ │错误处理 │ │会话管理│ │
│ │(SOUL.md) │ │(重试/降级) │ │(隔离) │ │
│ └─────────┘ └─────────┘ └───────┘ │
└─────────────────────────────────────┘
↓
LLM(Qwen / GLM / MiniMax …)← 模型层
Harness Engineering 的三个阶段
第一阶段:能用(2024-2025)
让 AI 能调用工具
基本的对话记忆
简单的权限控制
第二阶段:好用(2025-2026)
多 Agent 协作
长期记忆管理
自动降级和容错
多渠道统一消息
第三阶段:自动化(2026+)
AI 自主调度任务
自动学习和优化
跨平台协同
人机共治
给小白的建议
你需要关心 Harness Engineering 吗?
你的情况 建议
只用 ChatGPT/Claude 网页版 不需要,平台已经帮你做好了
想用自己的模型(API 调用) 需要,至少做工具调用和记忆管理
想让 AI 24 小时自动做事 需要,完整的 Harness 体系
想管理多个 AI 分工协作 需要,而且需要专业的 Harness 工程
怎么开始?
先让 AI 能用工具——比如接一个天气 API
加上记忆——让 AI 记住上次聊了什么
加上权限——敏感操作先确认再执行
逐步完善——错误处理、多用户隔离、自动降级
记住:模型能力是基础,但 Harness 水平决定了你的 AI 能走多远。
一张图看懂所有概念
┌─────────────────────────────────────────────────────────────────┐
│ Harness Engineering(缰绳工程学) │
│ “工具调用 + 记忆管理 + 权限控制 + 错误处理 + 人格设定 + 会话管理” │
│ 模型能力是基础,Harness 水平决定 AI 能走多远 │
├─────────────────────────────────────────────────────────────────┤
│ OpenClaw(操作系统) │
│ “把 Agent、Skills、MCP 组织在一起的系统” │
│ 多 Agent 管理 + 任务编排 + 多渠道 + 定时任务 + 记忆管理 │
├──────────────────────┬──────────────────────┬────────────────────┤
│ Agent A: 丁小虾 │ Agent B: 程小虾 │ Agent C: 安小虾 │
│ 个人助理 │ 程序员 │ 安全审计师 │
│ + Skills: │ + Skills: │ + Skills: │
│ 记忆归档 │ GitHub 集成 │ 安全审计 │
│ 新闻采集 │ 代码生成 │ 漏洞扫描 │
│ 邮件处理 │ Bug 修复 │ 代码审查 │
│ LLM: Qwen 3.5-Plus │ LLM: GLM-5 │ LLM: Qwen-Coder │
├──────────────────────┴──────────────────────┴────────────────────┤
│ MCP(万能插头) │
│ “让 Agent 能用统一方式连接外部工具” │
│ 数据库 | 文件系统 | Web 搜索 | Git | 日历 | 邮件 │
├─────────────────────────────────────────────────────────────────┤
│ LLM(大脑) │
│ GPT-4o | Claude 3.5 | Qwen 3.5 | GLM-5 | MiniMax-M2.5 │
│ 理解语言 | 生成文字 | 逻辑推理 | 翻译 | 总结 │
└─────────────────────────────────────────────────────────────────┘
概念关系总结
概念 一句话定义 类比 依赖关系
LLM 能理解和生成文字的大模型 大脑 无(最底层)
Agent LLM + 工具 + 记忆 + 规划 有手脚的人 依赖 LLM
Skills Agent 的操作手册 岗位培训 依赖 Agent
MCP 统一的外部工具连接协议 USB-C 接口 独立标准
OpenClaw 多 Agent 编排平台 操作系统 依赖以上所有
Harness Engineering 控制层:工具调用+记忆+权限+错误处理 缰绳+马鞍 包裹在 LLM 外面,让 AI 可控可用
常见问题解答
Q1:Agent 和 Bot 有什么区别?
Bot(机器人) 通常指按固定规则回复的程序。比如客服 Bot:
用户: “退款怎么操作?”
Bot: “请在订单页面点击’申请退款'”(固定回复)
Agent(智能体) 能理解意图、规划步骤、使用工具。比如:
用户: “帮我处理一下这个退款”
Agent:
1. 查询订单信息
2. 判断是否符合退款条件
3. 调用退款 API
4. 通知用户处理结果
Bot 是”如果 A 则 B”,Agent 是”理解目标→规划路径→执行→反馈”。
Q2:MCP 和 API 有什么区别?
维度 API MCP
是什么 具体的接口(如 GET /weather) 统一的协议标准
调用方式 每个 API 调用方式不同 所有 MCP 工具调用方式相同
发现机制 需要查文档 Agent 自动发现可用工具
跨模型 不同模型需要不同适配 所有模型用同一方式调用
MCP 不是替代 API,而是包装 API 的标准化方式。
Q3:我需要自己开发 MCP Server 吗?
大多数情况不需要。
社区已经有大量现成的 MCP Server:
文件系统、数据库、Git、搜索、日历、邮件……
你只需要:
找到需要的 MCP Server
配置连接信息
在 Agent 平台启用
只有当你需要连接非常特定的内部系统时,才需要自己开发。
Q4:多个 Agent 会互相冲突吗?
不会,如果配置正确。
OpenClaw 里每个 Agent 有独立的:
Session(对话历史)
Memory(记忆文件)
角色设定(SOUL.md)
它们之间通过消息系统协作,而不是共享同一个会话。
Q5:AI 会”失控”吗?
有可能,但概率很低,而且可以预防。
AI 失控的场景:
给了过多权限(能发邮件、删文件、调支付 API)
指令模糊导致误判
模型幻觉(胡说八道但很自信)
预防措施:
权限分级(前面已讲)
重要操作人工确认
定期审计操作日志
不依赖 AI 做价值判断
给小白的建议:从哪开始?
第一阶段:先用 LLM(零门槛,1 天上手)
工具:ChatGPT、Claude、Kimi、文心一言 用途:写邮件、翻译、查资料、写代码、做总结 成本:免费版够用
建议:
先习惯”跟 AI 对话”的感觉
学会写好 Prompt(指令)—— 越具体,效果越好
了解 LLM 的能力边界 —— 它不是全知全能的
每天用,用着用着就知道它能做什么、不能做什么
一个好 Prompt 的例子:
❌ 差:”帮我写封邮件” ✅ 好:”帮我写一封给张总的商务邮件,目的是约下周见面讨论年框合作,预算 50 万,语气正式但不生硬,控制在 300 字以内”
第二阶段:尝试 Agent(低门槛,一周上手)
工具:Coze、Dify、OpenClaw(开源) 用途:让 AI 帮你自动做事(查天气、发邮件、管日历、整理笔记) 成本:部分免费,部分需要 API 付费(每月几十到几百元)
建议:
先选一个场景(比如每天自动看新闻、自动整理笔记)
配置好工具(API Key、权限)
观察 AI 怎么执行,再逐步优化
先跑通一个场景,再加第二个
第一个 Agent 场景推荐:
场景 难度 价值
每天自动推送新闻 ⭐ 每天早上不用自己刷新闻
邮件自动分类处理 ⭐⭐ 节省收件箱管理时间
日历自动提醒 ⭐ 不会忘记重要会议
笔记自动归档 ⭐⭐ 知识管理自动化
第三阶段:多 Agent 协作(进阶,一个月上手)
工具:OpenClaw、LangGraph、AutoGen 用途:多个 AI 分工协作(一个写代码、一个审查、一个测试、一个部署) 成本:需要一定的技术基础,API 费用每月几百到上千元
建议:
先跑通一个 Agent,再加第二个
做好权限隔离(别让员工看到老板的密码)
定好沟通规则(谁向谁汇报、怎么汇报)
从小团队开始(2-3 个 Agent),逐步扩展
多 Agent 团队推荐配置:
角色 职责 推荐模型
统筹助理 任务分配、进度跟进、汇总汇报 中文强的模型
程序员 代码编写、技术实现 代码强的模型
安全员 代码审计、安全检查 有安全知识的模型
避坑指南
坑 症状 解法 真实案例
期望过高 以为 AI 什么都能做,结果失望 了解边界,AI 不是超人 让 AI 写文章,它写得很好;让它发出去,它说”我没这能力”
过度依赖 所有事都丢给 AI,自己不把关 关键决策自己把控 AI 自动归档邮件但没标记已读,导致 22 封”未读”
安全忽视 给 AI 所有权限,不加分级 分级授权,重要操作要确认 Agent 差点把测试邮件发给真实客户
忽略记忆 AI 忘了之前说的话,反复解释 重要信息写到文件里 跟 AI 说了项目背景,第二天它忘了
工具焦虑 追新工具,但一个都没用好 先用起来,再升级 装了 10 个 Agent 平台,每个都只跑了一次
忽视验证 相信 AI 说”完成了”就真完成了 验证实际效果 API 返回 success 但实际没生效
写在最后
LLM、Agent、Skills、MCP、OpenClaw、Harness Engineering——这些不是六个独立的概念,而是一个完整的 AI 应用生态。
LLM 是大脑(理解 + 生成)
Agent 是有了手脚的大脑(理解 + 生成 + 行动)
Skills 是 Agent 的专业培训(知道怎么做具体任务)
MCP 是统一接口标准(一个插头连所有工具)
OpenClaw 是操作系统(组织所有组件协同工作)
Harness Engineering 是缰绳工程学(工具调用+记忆+权限+错误处理,让 AI 可控可用)
理解了这个关系,你就不会再被新名词搞晕了。下次听到什么新词,只需要问自己:它属于哪一层?
而对你最重要的问题是:你现在需要哪一层?
刚开始 → 从 LLM 开始
想让 AI 帮你做事 → 试试 Agent
想让 AI 按标准流程做事 → 配置 Skills
想连接多个工具 → 了解 MCP
想管理多个 AI 助理 → 看看 OpenClaw
想让 AI 真正可控、稳定、安全地做事 → 研究 Harness Engineering
别被工具焦虑绑架。先用起来,再升级。 最好的 AI 工具,是你每天都在用的那个。
夜雨聆风