AI基础知识扫盲贴(转贴)

一、最核心的三个概念：模型、Chatbot、Agent

模型（Model）—— AI 的"大脑"

GPT、Claude、Gemini、DeepSeek、豆包、千问、Kimi、GLM……这些名字指的都是模型。

模型就是一个超级大脑。它能理解语言、能写文章、能分析数据、能写代码——但它只是一个大脑，没有手，没有脚，没有眼睛。

你可以把它理解为：一个什么都懂的顾问，但他只坐在办公室里回答问题，不会起身帮你干任何活。

Chatbot（聊天机器人）—— 大脑 + 一张嘴

当你打开 ChatGPT 网页、豆包 App、DeepSeek 对话框，跟 AI 一问一答地聊天——你用的就是 Chatbot。

Chatbot 的本质：它能"说"，但不能"做"。

你问它问题，它回答你

但它不会帮你创建文件、修改文档、操作你的电脑

你得自己复制它的回答，自己粘贴，自己整理

有人问：豆包是 Agent 吗？

不是。豆包是 Chatbot。你在豆包 App 里跟它聊天，它给你建议，但活还是你自己干。

Agent（智能体）—— 大脑 + 手脚 + 记忆 + 工具箱

Agent 跟 Chatbot 最大的区别就一句话：它不只是跟你聊天，它能帮你干活。

你说"帮我建一个网站"，Chatbot 会给你一段代码让你自己折腾；Agent 则直接在你电脑上建好文件夹、写好代码、跑起来、自己调试 bug、最后告诉你"做好了"。

Agent = 一个能自主思考、自主执行、自主迭代的数字员工。

你只需要用自然语言告诉它"做什么"，它自己搞定"怎么做"。

三者的关系一句话总结

模型 = 大脑（思考能力）

Chatbot = 大脑 + 聊天界面（能说不能做）

Agent = 大脑 + 执行环境（能说能做）

同一个模型（比如 Claude），可以用在 Chatbot 里（Claude 网页版），也可以用在 Agent 里（Claude Code）。工具不同，能力天差地别。

二、Token —— AI 世界的"货币"

评论区高频问题："Token 是什么？""Token 贵吗？"

Token 是什么？

Token 是 AI 理解文字的最小单位。你可以粗略理解为：

1 个中文字 ≈ 1-2 个 Token

1 个英文单词 ≈ 1 个 Token

你给 AI 发一段话，AI 会先把你的话拆成一个个 Token，理解之后再生成回复（也是一个个 Token）。

你的输入消耗 Token，AI 的输出也消耗 Token。Token 就是你使用 AI 的"电费"。

Token 贵吗？

取决于你用什么模型、怎么付费：

订阅制（月费）：比如 ChatGPT Plus 每月 20 美元，在额度内随便用，不用算 Token

按量付费（API）：按你实际消耗的 Token 数量计费，便宜的模型几块钱能聊一天，贵的模型（如 Claude Opus）重度使用一天可能几十上百元

大牛说过一句话："再穷不能穷模型，再省不能省 Token。"

学 AI 的阶段不要省 Token，就像学开车不要省油——你得先学会开，再谈省油。

三、上下文（Context）—— AI 的"工作记忆"

上下文是什么？

简单说：你跟 AI 这一轮对话中所有的内容（你说的 + 它说的），加在一起就是"上下文"。

AI 不像人有长期记忆。它每次回答你的时候，参考的就是当前对话里的所有内容。你可以把它理解为：AI 的"桌面"——桌面上放着多少资料，它就能参考多少。

上下文窗口是什么？

每个模型的"桌面"大小是有限的，这个大小叫上下文窗口，用 Token 来衡量：

模型

上下文窗口大小

换算约多少字

GPT-5.5

1M Token（API）/ 256K（ChatGPT）

约 70-80 万字

Claude Sonnet 4.6

1M Token

约 70-80 万字

Claude Opus 4.7

1M Token

约 70-80 万字

Gemini 3.1

1M Token

约 70-80 万字

DeepSeek V4

1M Token

约 70-80 万字

Kimi K2.6

256K Token

约 18-20 万字

可以看到，2026 年主流顶级模型基本都已经到了 100 万 Token（1M）的级别，相当于一次性喂进去一整本书。

但即便窗口这么大，聊得够长，早期的内容还是会被稀释——这就是为什么你觉得"AI 聊着聊着就忘了之前说的"。窗口大不代表注意力无限，信息越多，AI 对每条信息的关注度就越分散。

上下文污染是什么？

你在一个对话窗口里先聊小红书文案，突然又聊抖音运营，再聊个人理财——AI 的注意力就被搞乱了，它会把这些不相关的话题混在一起影响判断。这叫上下文污染。

解决方法很简单：一个窗口聊一件事。要切话题就开新窗口。

长程任务是什么？

就是需要 AI 持续工作很久、步骤很多的任务。比如"帮我开发一个小程序"——这不是一轮对话就能搞定的，需要 AI 持续记住前面做了什么、后面要做什么。

长程任务对上下文管理要求很高。如果中间跑偏了，后面的结果就全歪了——就像制造业里的"误差累积"。

四、Harness / 挽具 —— 驾驭 AI 的"马鞍"

为什么叫"挽具"？

Harness 的英文原意就是给马装的马鞍、缰绳等装备。条形码老师用了一个比喻：AI 是一匹马，它有力量、有速度，但你要骑好它，需要给它装上马鞍（harness）。

Harness 不是某个软件或工具的名字，而是一种思维方式和方法体系——它指的是你如何组织信息、管理上下文、引导 AI、验证结果的整套方法。

现在行业里还有一种说法是"上下文工程"(Context Engineering)，本质上和 Harness 讲的是同一件事。

跟"提示词"是什么关系？

你可以这样理解：

提示词（Prompt）= 你对 AI 说的一句话

上下文工程 / Harness = 你如何系统性地管理整个对话过程

提示词是一个点，Harness 是一条线。光会写一句好的提示词是不够的，你需要学会管理整个对话的全过程。

五、Skill —— Agent 的"技能包"

Skill 是什么？

Skill 可以理解为你教给 Agent 的一套固定工作流程。

比如你每次写小红书文案都要经过"分析竞品 → 提炼卖点 → 写标题 → 写正文 → 配图建议"这五步。你可以把这套流程写成一个 Skill，以后只要说"帮我写小红书文案"，Agent 就自动按这个流程执行。

Skill vs 提示词：

提示词是一次性的——你每次都得重新说

Skill 是可复用的——写一次，反复调用

在 Claude Code 里，内置了一个 Skill 创建工具。你只需要用自然语言把工作流描述清楚，它就能帮你把这个流程固化成一个可复用的 Skill。

六、API / 中转站 / 订阅 —— 三种付费方式

这三个概念混在一起是评论区最大的混乱源之一。

订阅（Subscription）

像充会员一样，每月交一笔固定费用，在额度内随便用。

ChatGPT Plus：20 美元/月

Claude Pro：20 美元/月

Claude Max：100-200 美元/月（无限量用）

优点：简单，不用操心用量。缺点：需要海外支付方式、部分服务需要外网。

API（应用编程接口）

你向模型厂商申请一个"钥匙"（API Key），按实际使用量付费。

这种方式主要用在 Agent 工具里。比如你用 Claude Code，它需要一个 API Key 来调用模型。你把 Key 配置好，Agent 就能用这个模型干活了。

优点：灵活，用多少付多少。缺点：需要自己配置。

中转站

有人搭了一个中间服务器，把海外模型的 API "转发"到国内，让你不用外网也能用。

风险提示：

中转站运营者能看到你所有的对话内容

来源不明的中转站可能随时跑路

如果要用，一定选你信任的人运营的

总结一句话：能用官方订阅就用订阅，能用官方 API 就用 API，中转站是最后的备选。

七、那些工具到底都是什么？——一张关系图

大家最多的问题就是："这些工具都是什么？能解释一下吗？别只念个名字。"

AI Agent 工具分类

Agent 工具（帮你干活的）

├── 命令行类（在终端里用，功能最强大）

│ ├── Claude Code —— Anthropic 出品，当前最强，推荐首选

│ └── Codex CLI —— OpenAI 出品，开源，终端里使用

│

├── 图形界面类（有可视化界面，更友好）

│ ├── Codex 桌面版/网页版 —— OpenAI 出品，可在 ChatGPT 网页端或桌面 App 使用

│ ├── Claude Cowork —— Anthropic 出品，面向非技术用户的办公自动化 Agent

│ ├── Trae Solo —— 字节跳动出品，国产，有 Code 和 MTC 双模式

│ ├── WorkBuddy —— 腾讯出品，国产，面向职场非开发人员

│ └── Kiro —— AWS 出品，规范驱动的 IDE（VS Code 分支），偏专业开发

│

├── 自主运行类（后台持续运行的智能体）

│ ├── OpenClaw（原 Clawdbot/Moltbot）—— 开源，可通过微信/Telegram 远程控制电脑

│ └── Hermes —— Nous Research 出品，开源，有持久记忆和自我进化能力

│

└── 工作流编排类（搭积木式的自动化平台）

└── COZE（扣子）—— 字节出品，拖拽搭建工作流

AI Chatbot 工具（聊天类）

Chatbot（跟你聊天的）

├── 海外

│ ├── ChatGPT（GPT 模型）—— 网页 / App

│ ├── Claude.ai（Claude 模型）—— 网页 / App

│ ├── Gemini（Google 模型）—— 网页 / App

│ └── Grok（xAI/马斯克，做 X/推特相关用）

│

└── 国产

├── 豆包（字节，日常聊天用）

├── DeepSeek（深度求索，性价比高）

├── 千问（阿里）

├── Kimi（月之暗面）

├── 微信元宝（腾讯，微信生态数据强）

└── GLM / 智谱清言（智谱 AI）

几个常见困惑

"龙虾"是什么？

"小龙虾"最早是指开源项目 Clawdbot（logo 是一只龙虾，名字又像 Claude），后来因为商标问题改名为 OpenClaw，它是一个 AI Agent 工具。

"爱马仕"是什么？

Hermes，Nous Research 出品的开源 Agent 框架，名字跟奢侈品牌同名所以被叫"爱马仕"。它的特色是有持久记忆系统和自我进化的 Skill 机制——用得越多越聪明。

"MTC"是什么？

More Than Coding（不止代码）。这是 Trae Solo 提出的一个模式——Agent 工具虽然叫"Code"，但它能做的远不止写代码：写文案、做分析、整理资料、搭网站……什么都能干。

"MCP"是什么？

Model Context Protocol（模型上下文协议）。你可以理解为一种"插座标准"——让 Agent 能对接各种外部工具和数据源（比如飞书、数据库、浏览器）。就像 USB 接口让你能插各种外设一样，插上音响可以给电脑增加播放音乐的能力，插上 MCP 可以给 AI 也增加一个对应的能力。

八、多模态 —— AI 不只会"读文字"

评论区经常看到"视觉能力"、"多模态"这些词。这一节帮你搞清楚：AI 现在到底能处理哪些类型的信息？

什么是"模态"？

模态就是信息的类型。文字是一种模态，图片是一种模态，声音也是一种模态。

早期的 AI 只能处理文字——你打字问它，它打字回答你。这叫单模态。

现在的 AI 能同时处理多种类型的信息，这叫多模态（Multimodal）。

AI 现在能处理哪些模态？

截至 2026 年 6 月，主流模型支持的模态包括：

输入和输出是两回事

这里有一个容易混淆的点：AI 能"看懂"某种模态，不代表它能"生成"这种模态。

以图片为例：

输入图片（看图）：几乎所有主流模型都支持——你发一张图，它能告诉你图里有什么

输出图片（画图）：只有部分模型支持——比如 GPT 的 image 功能、Gemini 的图片生成

再比如视频：

输入视频（看视频）：Gemini、豆包、Kimi 等支持——你发一段视频，它能帮你拆分镜

输出视频（做视频）：目前大模型本身还不直接生成视频，需要借助专门的视频生成工具（如即梦等）

各家模型的多模态能力差异

不同模型在多模态上的侧重点不同：

模型

多模态强项

Gemini

多模态最全面——视频理解、音频处理、图片分析都是顶级

GPT

图片生成（GPT Image 2）质量极高，文字推理和工具调用能力强

Claude

图片理解不错，核心优势在文字和代码，多模态不是它的主打方向

豆包

短视频理解能力好，图片生成（Seedance/Seed）效果不错

Kimi

视频理解能力好，擅长长文档和视觉结合的任务

GLM

引入了 3D 空间感知能力，在工业和医疗等垂直场景有优势

一句话总结

2026 年的 AI 已经不只是"读文字的"了。它能看图、听声音、看视频、读文件，甚至直接看你的电脑屏幕帮你操作。理解这一点很重要——当你跟 AI 协作时，不要只靠打字，学会把截图、录音、视频直接丢给它，效果会好很多。