一、最核心的三个概念:模型、Chatbot、Agent
模型(Model)—— AI 的"大脑"
GPT、Claude、Gemini、DeepSeek、豆包、千问、Kimi、GLM……这些名字指的都是模型。
模型就是一个超级大脑。它能理解语言、能写文章、能分析数据、能写代码——但它只是一个大脑,没有手,没有脚,没有眼睛。
你可以把它理解为:一个什么都懂的顾问,但他只坐在办公室里回答问题,不会起身帮你干任何活。
Chatbot(聊天机器人)—— 大脑 + 一张嘴
当你打开 ChatGPT 网页、豆包 App、DeepSeek 对话框,跟 AI 一问一答地聊天——你用的就是 Chatbot。
Chatbot 的本质:它能"说",但不能"做"。
你问它问题,它回答你
但它不会帮你创建文件、修改文档、操作你的电脑
你得自己复制它的回答,自己粘贴,自己整理
有人问:豆包是 Agent 吗?
不是。豆包是 Chatbot。你在豆包 App 里跟它聊天,它给你建议,但活还是你自己干。
Agent(智能体)—— 大脑 + 手脚 + 记忆 + 工具箱
Agent 跟 Chatbot 最大的区别就一句话:它不只是跟你聊天,它能帮你干活。
你说"帮我建一个网站",Chatbot 会给你一段代码让你自己折腾;Agent 则直接在你电脑上建好文件夹、写好代码、跑起来、自己调试 bug、最后告诉你"做好了"。
Agent = 一个能自主思考、自主执行、自主迭代的数字员工。
你只需要用自然语言告诉它"做什么",它自己搞定"怎么做"。
三者的关系一句话总结
模型 = 大脑(思考能力)
Chatbot = 大脑 + 聊天界面(能说不能做)
Agent = 大脑 + 执行环境(能说能做)
同一个模型(比如 Claude),可以用在 Chatbot 里(Claude 网页版),也可以用在 Agent 里(Claude Code)。工具不同,能力天差地别。
二、Token —— AI 世界的"货币"
评论区高频问题:"Token 是什么?""Token 贵吗?"
Token 是什么?
Token 是 AI 理解文字的最小单位。你可以粗略理解为:
1 个中文字 ≈ 1-2 个 Token
1 个英文单词 ≈ 1 个 Token
你给 AI 发一段话,AI 会先把你的话拆成一个个 Token,理解之后再生成回复(也是一个个 Token)。
你的输入消耗 Token,AI 的输出也消耗 Token。Token 就是你使用 AI 的"电费"。
Token 贵吗?
取决于你用什么模型、怎么付费:
订阅制(月费):比如 ChatGPT Plus 每月 20 美元,在额度内随便用,不用算 Token
按量付费(API):按你实际消耗的 Token 数量计费,便宜的模型几块钱能聊一天,贵的模型(如 Claude Opus)重度使用一天可能几十上百元
大牛说过一句话:"再穷不能穷模型,再省不能省 Token。"
学 AI 的阶段不要省 Token,就像学开车不要省油——你得先学会开,再谈省油。
三、上下文(Context)—— AI 的"工作记忆"
上下文是什么?
简单说:你跟 AI 这一轮对话中所有的内容(你说的 + 它说的),加在一起就是"上下文"。
AI 不像人有长期记忆。它每次回答你的时候,参考的就是当前对话里的所有内容。你可以把它理解为:AI 的"桌面"——桌面上放着多少资料,它就能参考多少。
上下文窗口是什么?
每个模型的"桌面"大小是有限的,这个大小叫上下文窗口,用 Token 来衡量:
模型
上下文窗口大小
换算约多少字
GPT-5.5
1M Token(API)/ 256K(ChatGPT)
约 70-80 万字
Claude Sonnet 4.6
1M Token
约 70-80 万字
Claude Opus 4.7
1M Token
约 70-80 万字
Gemini 3.1
1M Token
约 70-80 万字
DeepSeek V4
1M Token
约 70-80 万字
Kimi K2.6
256K Token
约 18-20 万字
可以看到,2026 年主流顶级模型基本都已经到了 100 万 Token(1M) 的级别,相当于一次性喂进去一整本书。
但即便窗口这么大,聊得够长,早期的内容还是会被稀释——这就是为什么你觉得"AI 聊着聊着就忘了之前说的"。窗口大不代表注意力无限,信息越多,AI 对每条信息的关注度就越分散。
上下文污染是什么?
你在一个对话窗口里先聊小红书文案,突然又聊抖音运营,再聊个人理财——AI 的注意力就被搞乱了,它会把这些不相关的话题混在一起影响判断。这叫上下文污染。
解决方法很简单:一个窗口聊一件事。要切话题就开新窗口。
长程任务是什么?
就是需要 AI 持续工作很久、步骤很多的任务。比如"帮我开发一个小程序"——这不是一轮对话就能搞定的,需要 AI 持续记住前面做了什么、后面要做什么。
长程任务对上下文管理要求很高。如果中间跑偏了,后面的结果就全歪了——就像制造业里的"误差累积"。
四、Harness / 挽具 —— 驾驭 AI 的"马鞍"
为什么叫"挽具"?
Harness 的英文原意就是给马装的马鞍、缰绳等装备。条形码老师用了一个比喻:AI 是一匹马,它有力量、有速度,但你要骑好它,需要给它装上马鞍(harness)。
Harness 不是某个软件或工具的名字,而是一种思维方式和方法体系——它指的是你如何组织信息、管理上下文、引导 AI、验证结果的整套方法。
现在行业里还有一种说法是"上下文工程"(Context Engineering),本质上和 Harness 讲的是同一件事。
跟"提示词"是什么关系?
你可以这样理解:
提示词(Prompt)= 你对 AI 说的一句话
上下文工程 / Harness = 你如何系统性地管理整个对话过程
提示词是一个点,Harness 是一条线。光会写一句好的提示词是不够的,你需要学会管理整个对话的全过程。
五、Skill —— Agent 的"技能包"
Skill 是什么?
Skill 可以理解为你教给 Agent 的一套固定工作流程。
比如你每次写小红书文案都要经过"分析竞品 → 提炼卖点 → 写标题 → 写正文 → 配图建议"这五步。你可以把这套流程写成一个 Skill,以后只要说"帮我写小红书文案",Agent 就自动按这个流程执行。
Skill vs 提示词:
提示词是一次性的——你每次都得重新说
Skill 是可复用的——写一次,反复调用
在 Claude Code 里,内置了一个 Skill 创建工具。你只需要用自然语言把工作流描述清楚,它就能帮你把这个流程固化成一个可复用的 Skill。
六、API / 中转站 / 订阅 —— 三种付费方式
这三个概念混在一起是评论区最大的混乱源之一。
订阅(Subscription)
像充会员一样,每月交一笔固定费用,在额度内随便用。
ChatGPT Plus:20 美元/月
Claude Pro:20 美元/月
Claude Max:100-200 美元/月(无限量用)
优点:简单,不用操心用量。缺点:需要海外支付方式、部分服务需要外网。
API(应用编程接口)
你向模型厂商申请一个"钥匙"(API Key),按实际使用量付费。
这种方式主要用在 Agent 工具里。比如你用 Claude Code,它需要一个 API Key 来调用模型。你把 Key 配置好,Agent 就能用这个模型干活了。
优点:灵活,用多少付多少。缺点:需要自己配置。
中转站
有人搭了一个中间服务器,把海外模型的 API "转发"到国内,让你不用外网也能用。
风险提示:
中转站运营者能看到你所有的对话内容
来源不明的中转站可能随时跑路
如果要用,一定选你信任的人运营的
总结一句话:能用官方订阅就用订阅,能用官方 API 就用 API,中转站是最后的备选。
七、那些工具到底都是什么?——一张关系图
大家最多的问题就是:"这些工具都是什么?能解释一下吗?别只念个名字。"
AI Agent 工具分类
Agent 工具(帮你干活的)
├── 命令行类(在终端里用,功能最强大)
│ ├── Claude Code —— Anthropic 出品,当前最强,推荐首选
│ └── Codex CLI —— OpenAI 出品,开源,终端里使用
│
├── 图形界面类(有可视化界面,更友好)
│ ├── Codex 桌面版/网页版 —— OpenAI 出品,可在 ChatGPT 网页端或桌面 App 使用
│ ├── Claude Cowork —— Anthropic 出品,面向非技术用户的办公自动化 Agent
│ ├── Trae Solo —— 字节跳动出品,国产,有 Code 和 MTC 双模式
│ ├── WorkBuddy —— 腾讯出品,国产,面向职场非开发人员
│ └── Kiro —— AWS 出品,规范驱动的 IDE(VS Code 分支),偏专业开发
│
├── 自主运行类(后台持续运行的智能体)
│ ├── OpenClaw(原 Clawdbot/Moltbot)—— 开源,可通过微信/Telegram 远程控制电脑
│ └── Hermes —— Nous Research 出品,开源,有持久记忆和自我进化能力
│
└── 工作流编排类(搭积木式的自动化平台)
└── COZE(扣子)—— 字节出品,拖拽搭建工作流
AI Chatbot 工具(聊天类)
Chatbot(跟你聊天的)
├── 海外
│ ├── ChatGPT(GPT 模型)—— 网页 / App
│ ├── Claude.ai(Claude 模型)—— 网页 / App
│ ├── Gemini(Google 模型)—— 网页 / App
│ └── Grok(xAI/马斯克,做 X/推特相关用)
│
└── 国产
├── 豆包(字节,日常聊天用)
├── DeepSeek(深度求索,性价比高)
├── 千问(阿里)
├── Kimi(月之暗面)
├── 微信元宝(腾讯,微信生态数据强)
└── GLM / 智谱清言(智谱 AI)
几个常见困惑
"龙虾"是什么?
"小龙虾"最早是指开源项目 Clawdbot(logo 是一只龙虾,名字又像 Claude),后来因为商标问题改名为 OpenClaw,它是一个 AI Agent 工具。
"爱马仕"是什么?
Hermes,Nous Research 出品的开源 Agent 框架,名字跟奢侈品牌同名所以被叫"爱马仕"。它的特色是有持久记忆系统和自我进化的 Skill 机制——用得越多越聪明。
"MTC"是什么?
More Than Coding(不止代码)。这是 Trae Solo 提出的一个模式——Agent 工具虽然叫"Code",但它能做的远不止写代码:写文案、做分析、整理资料、搭网站……什么都能干。
"MCP"是什么?
Model Context Protocol(模型上下文协议)。你可以理解为一种"插座标准"——让 Agent 能对接各种外部工具和数据源(比如飞书、数据库、浏览器)。就像 USB 接口让你能插各种外设一样,插上音响可以给电脑增加播放音乐的能力,插上 MCP 可以给 AI 也增加一个对应的能力。
八、多模态 —— AI 不只会"读文字"
评论区经常看到"视觉能力"、"多模态"这些词。这一节帮你搞清楚:AI 现在到底能处理哪些类型的信息?
什么是"模态"?
模态就是信息的类型。文字是一种模态,图片是一种模态,声音也是一种模态。
早期的 AI 只能处理文字——你打字问它,它打字回答你。这叫单模态。
现在的 AI 能同时处理多种类型的信息,这叫多模态(Multimodal)。
AI 现在能处理哪些模态?
截至 2026 年 6 月,主流模型支持的模态包括:

输入和输出是两回事
这里有一个容易混淆的点:AI 能"看懂"某种模态,不代表它能"生成"这种模态。
以图片为例:
输入图片(看图):几乎所有主流模型都支持——你发一张图,它能告诉你图里有什么
输出图片(画图):只有部分模型支持——比如 GPT 的 image 功能、Gemini 的图片生成
再比如视频:
输入视频(看视频):Gemini、豆包、Kimi 等支持——你发一段视频,它能帮你拆分镜
输出视频(做视频):目前大模型本身还不直接生成视频,需要借助专门的视频生成工具(如即梦等)
各家模型的多模态能力差异
不同模型在多模态上的侧重点不同:
模型
多模态强项
Gemini
多模态最全面——视频理解、音频处理、图片分析都是顶级
GPT
图片生成(GPT Image 2)质量极高,文字推理和工具调用能力强
Claude
图片理解不错,核心优势在文字和代码,多模态不是它的主打方向
豆包
短视频理解能力好,图片生成(Seedance/Seed)效果不错
Kimi
视频理解能力好,擅长长文档和视觉结合的任务
GLM
引入了 3D 空间感知能力,在工业和医疗等垂直场景有优势
一句话总结
2026 年的 AI 已经不只是"读文字的"了。它能看图、听声音、看视频、读文件,甚至直接看你的电脑屏幕帮你操作。 理解这一点很重要——当你跟 AI 协作时,不要只靠打字,学会把截图、录音、视频直接丢给它,效果会好很多。
夜雨聆风