AI入门第一组热身:LLM、Agent、Token.五分钟,把咱AI圈的＂五月天＂认全

AI 五月天歌单

LLM · Agent · Token · Prompt · 上下文 · 微调

一次全搞懂，让你随时都会唱

AI第二人生 · 第 1 期 | Ting | 2026.06.01

写在前面的话：

相信大家都听到过一句话："当你意识到生命只有一次的时候，第二次便开始了。"对我来说人生的意义是坚持和很多感动。五月天有一张专辑叫《第二人生》，如果你现在打开它，会找到一首歌叫《2012》，阿信写的是：如果明天就是末日，你今天怎么活。我很感谢自己做过的几件事情，健身让我坚韧，五月天让我收获感动的同时更会用爱去对待世界。现在早已过了2012，但AI给很多人的感觉就是，旧的世界快要结束了，新的还没准备好。从鸟巢走到大莲花，从八万人体育场又回到鸟巢毕业，属于五月天的感动可能要三年后再来，但好在我找到了新的方向，我的AI故事，现在正是起点！我是你们的好朋友Ting，期待和大家共同进步。

在开始写之前我也问过自己，学习科普视频，网上一搜一大堆，B站上的视频一搜一大堆，为什么要开始写公众号？我想我接下来的这段话会戳中很多人的内心：视频先收藏，以后再看，就没有以后了，或者这个视频讲的真的很生动，当时也领悟的很透彻，但过一阶段就忘在了脑后。所以这就是文字的意义和力量，就像你会在看演唱会的时候留下很多美好的瞬间，除了发朋友圈以外，更多的是留给多年后的那个自己，去寻找当初的感动和轨迹。

一转眼硕士毕业很多年了，身边也有很多中科院的计算机大佬，大家都在积极的拥抱AI时代，无论什么行业，AI都在颠覆大家的认知和生活。也许有人会说，AI离自己很遥远，也用不上。但是我想说无论你正从事着什么行业，做什么样的事情，AI一定会在不远的将来，走进你的工作和生活，就好像几年前抖音走进我们的生活一样！从今天开始，我会用最明白的话带着大家一起出发，逐步打开AI的大门！就像学习语言一样，学习AI也是从一些名词开始。

阿信说过："很多歌我们写了十几年才被大家听到，但没关系，好歌不怕晚。"学 AI 也一样。这篇东西放在这，你不用一次记住，你只需要知道——需要的时候，回来翻。

一、LLM 大语言模型

先聊最核心的问题：我们耳熟能详的 GPT、DeepSeek、Claude、Gemini——这些到底是什么？它们有一个共同的名字：LLM（Large Language Model）——大语言模型。"大"在哪？大在它读过的数据量。不是几百本书、不是几千篇论文——是整个互联网上公开的文本它基本都扫过一遍。论文、代码、维基百科、新闻、论坛帖子、小说……相当于一个把全世界图书馆读完的人，而且全记住了。

但你得知道它本质上是什么，才不会被忽悠：LLM 是一个概率预测机器。你给它前半句话，它根据自己读过的所有文本，猜最可能的下一个字。就这么简单。因为它读过的文本太多了，所以猜得特别准——这让你产生了"它在思考"的错觉。讲真，我第一次知道的时候也挺震撼的，就这么个"猜字游戏"，居然能做到这个程度。

一句话记住：LLM = 读过全互联网的预测机器。它不是在思考，它是在用超强的概率模型猜下一个字。但这已经足够惊艳了。

不是所有 LLM 都一样。现在主流的有这些：

模型	公司	一句话特点	推荐度
GPT-4o	OpenAI	综合最强，能看图表，贵	推荐
Claude 4	Anthropic	长文本最强，写作优雅	推荐
DeepSeek V4	深度求索	国产，便宜，1M上下文	推荐
Gemini 2.5	Google	上下文最长（2M），多模态	可用
Kimi	月之暗面	超长上下文，中文理解和长文本处理极强	推荐
文心一言	百度	中文语境好，百度生态整合	可用

我的建议：入门可以先选 DeepSeek。我现在自己就在用 deepseek-v4-pro，主要它是真的便宜好用，而且永久降价。先把一个工具用透，再去尝鲜别的。跟学乐器一个道理——先弹好一把吉他，再考虑买贝斯。

Ting说：
五月天第一场演出，台下只有十几个人。但他们把每一个和弦弹到位了。AI 也一样——别急着比较各种模型，先把一个用透。

二、Token 词元

全篇最重要的章节。搞懂 Token，你就搞懂了 AI 的商业逻辑。说实话，我第一次看到"Token"这个词的时候满脸问号——这什么玩意儿？

2.1 先来说说为什么要收费？

很多兄弟会问：AI 不就是个程序吗，为什么还要收钱？我换个说法你就明白了。你去健身房，铁片是免费的，但跑步机要电、空调要电、教练要工资——这些都不是免费的。AI 也一样，它背后是几千台 GPU（你可以理解成超级计算机的"大脑"）在疯狂运转，每一秒都在烧电。你问 AI 一个问题，它的流程是这样的：你的问题变成文字 → 文字拆成 Token → 几千台 GPU 同时计算 → 生成回答 → 传回你手机。整个过程短则零点几秒，长则几秒。但背后跑掉的电费和硬件损耗，是实实在在的。

简单说：你花的每一分钱，买的是三样东西：

电费（GPU 跑起来跟空调外机一样费电）
算力（几千台机器同时给你算）
工程师的头发（训练和维护这些模型的人，加班加到秃）

五月天一场演唱会，门票钱不是只买那三小时的歌——你买的是整个团队几个月的排练、舞美搭建、音响调试。AI 收费，一个道理。那不收钱的 AI 又是怎么回事？比如 DeepSeek 网页版、ChatGPT 免费版、豆包？兄弟，那不是真的免费——是公司贴钱在培养用户习惯，就跟健身房提供给你的免费体验一样。等你用顺手了，自然就愿意为更好的服务付费了。当然没有工作需求的小伙伴们使用免费版也是可以的，后面的文章我会带来付费和免费的区别！

2.2 Token 是什么？

AI 读文字不是按"字"来的，是按 Token（词元）。以 DeepSeek 的官方 Token 用量计算为例（不同的模型分词不同，换算比例也有所差异，以下都是平均值）：

1 个中文字 ≈ 0.6 个 Token
1 个英文单词 ≈ 0.3 个 Token

那"五月天"三个字按 0.6 算，应该是 3 × 0.6 = 1.8 个 Token 对吧？不对。我拿 DeepSeek 的官方 API 实际测了一下，「五月天」三个字只有 2 个 Token。那 AI 拿到这些 Token 之后怎么处理的？不是"一目十行"。是一个接一个，排着队，流过神经网络的每一层，就像工厂流水线，每个零件过一遍机器。比如你发了「五月天真好听」，AI 就这么老老实实地：「五月」进去 → 处理 → 「天」进去 → 处理 → 「真」进去 → 「好」进去 → 「听」进去……一个接一个，顺序碾过去，谁也不插队。你喂得多、喂得长，它就跑得久、烧得多。这也解释了为什么所有大模型都按 Token 计费——上一节讲的 GPU 电费，就是按这个"过了多少个零件"来算的。

【题外话】：有的小伙伴可能不是学习计算机的，也许不懂神经网络是个什么东西，我这里简单科普一下：

你见过那种"猜猜我是谁"的游戏吗？一个人背对着大家，另一个人拍他肩膀问"猜猜我是谁"。被拍的人靠肩膀上那一掌的力道、位置、对方有没有忍住笑声，来判断是谁。神经网络的每一层，就是在做一模一样的事：上一层传过来一个信号，我根据这个信号的特征，算出该传给下一层什么。具体到 AI 读「五月天」这件事：「五月」这个 Token 进来 → 第一层：这像是个名词 → 第二层：好像是乐队名字 → 第三层：应该是台湾那个 → …… → 几十层以后：懂了，这是五月天。每一层只做一点点判断，但几十上百层摞在一起，就把"两个 Token"变成了"理解"。你只需要记住一句话：神经网络 = 几百上千层数学公式，每层拧一下旋钮，合在一起就能从 Token 里拧出意思。

2.3 DeepSeek 怎么收费？

以下数据直接来自 DeepSeek 官方 API 文档（api-docs.deepseek.com），截至 2026 年 5 月：

项目	deepseek-v4-flash	deepseek-v4-pro	说明
上下文长度	1M Token	1M Token	都能装下两本《三体》
输出长度	384K	384K	一次最多生成这么多
输入-缓存命中	0.02 元/M	0.025 元/M	重复内容，最便宜
输入-缓存未命中	1 元/M	3 元/M	新内容，全价
输出	2 元/M	6 元/M	最贵的部分
思考模式	默认开启	默认开启	深度推理
Tool Calls	✓	✓	能调用外部工具

好消息：deepseek-v4-pro 永久2.5 折优惠活动！！

2.4 命中缓存 vs 未命中缓存——到底差在哪？

先贴出我自己的使用情况：

很多小伙伴会有疑问，token无非就是你敲键盘输入的token，还有大模型给你输出的token吗？输入为什么又分命中缓存和未命中缓存？这又是什么意思？缓存：大模型界的"回头客优惠"。你有没有这种体验——同一份文档追着 AI 问了好几轮，后面几轮明显比第一轮便宜？不是系统抽风。是你触发了缓存。原理很简单：AI 每一次回答你，都会记住你这轮对话前面发过的所有内容。当你接着追问的时候，它一看——前面那一大段刚才已经处理过了啊，直接从记忆里拿，不用重新算。下面我举个例子说明：

按 DeepSeek V4 Pro 的定价（输入约 3 元 / 百万 Token）：你把一份 50 页的合同扔进去：「帮我看看有没有法律风险」→ AI 通读一遍，吃进去约 3 万 Token → 花了大概 9 分钱。接着在同一个会话里追问：「第三条违约责任详细讲讲」→ 合同内容一个字没变，前面那 3 万 Token 全部命中缓存 → 同样 3 万 Token，按缓存价（约 0.025 元 / 百万 Token）算，只花不到 1 分钱。

2.5 各种付费方式怎么选？（订阅 vs API vs Coding Plan）

有的小伙伴又有疑问了，我用的deepseek网页端的也没收费啊，你前面说的「3 元 / 百万 Token」是什么东西？又是怎么买的，怎么用的？好问题。很多人都会搞混，我第一次也被绕进去了。DeepSeek 其实有两套东西，长得像，但完完全全是两码事：

先说免费的那个：你打开浏览器，输入 chat.deepseek.com ，跟它聊天——这个不要钱。模型是 V3、R1 这些基础款，日常聊天、写文案、翻译，完全够用。这也是大多数人对 AI 的第一印象：「不是免费的吗？」

再说我一直在讲的那个花钱的：那个叫 API。简单理解：API 就是 AI 的"后台接口"——你不用打开网页，而是通过代码或者第三方工具，直接把问题发给 DeepSeek 的服务器，它返回答案。按 Token 计费，先充值再用。你用 API，能选的模型更多。比如 deepseek-v4-pro，网页端目前没有，只有 API 通道才用得上。

两句话记住：

chat.deepseek.com = 免费健身房，基础器械随便用
API = 付费高级会员卡，能上专属器械，刷卡计次

那为什么有人愿意花钱用 API？

三个理由：

第一，模型更强。API 上的模型通常比免费版更新、更大、更聪明。

第二，能接入各种工具。一些编程插件、企业内部的 AI 客服——背后全是接的 API，不是打开网页聊的，我目前在使用hermes的时候就接入的deepseek的API，看不懂的小伙伴不要紧，后面我会一点点讲解！先放上一张图片，有没有一种回到插卡游戏机的年代！

第三，量大的时候反而划算。免费版有频率限制，重度用会被限流。API 虽然花钱，但没有限制，想怎么问怎么问。而且前面讲的缓存机制用好了，追着问几乎不花钱。

目前市面上 AI 付费主要有3种模式：

第一种：订阅制（交月费，随便用）

就是你每个月交一笔固定费用，这个月内随便用，用多用少一个价。

典型例子：ChatGPT Plus（20美元/月）、Claude Pro、Midjourney。

适合谁？每天都要用、懒得算账、图个省心的人。

第二种：按量/按次付费（用多少花多少）

就是按API调用次数或者Token数收费。你用一次，扣一次的钱；不用，一分不花。

典型例子：OpenAI API、DeepSeek API（3元/百万Token）、百度千帆。

适合谁？开发者、用量忽大忽小的人、或者想先花几块钱试试水的人。

第三种：Coding Plan（编程党的套餐）

这是最近火起来的新物种。你每个月交一笔钱，给你一个固定额度，可以在多款大模型之间随便切换着用。

典型例子：阿里云百炼的Coding Plan、腾讯云的TokenHub。

适合谁？重度AI编程用户，今天想用Kimi、明天想用GLM、后天想用Qwen——一个套餐全搞定。

Ting说：
新手先用 DeepSeek 免费网页版就够了。用到感觉"免费版不够用"了，再考虑付费。别一上来就充钱。

三、Agent 智能体

2026 年最火的概念，但说实话，99% 的人没搞明白它到底是什么。我第一次听也是一脸懵。普通的 AI 对话是「一问一答」：你问，它答，结束，等着你下一问。就像你跟一个知识渊博但很被动的朋友聊天——你不开口，他就沉默。

Agent 不一样。它会自己动手。你说一个目标，它自己规划步骤、自己调用工具、自己检查结果、自己修正错误——直到目标完成。就像一个靠谱的兄弟，你交代一句"帮我搞定"，他就真去搞定了。用一个我在实际开发生活中的例子说明。比如我要写一段代码，之前我需要打开某个AI，去问他该怎么做，疯狂的告诉他我的代码环境是怎么样的，然后经过反复的提问之后把满意的代码粘贴到自己的源码中，或者手动去修改。但是agent完全不一样，比如我在我的项目源码目录打开claude code，跟他说需求，他能够阅读你的代码仓库的同时直接帮你修改好，整个过程不需要任何你的参与！所以我也愈发意识到AI和agent给生产生活带来的便利，开个小玩笑，早上来你跟他对话几分钟，然后你可以睡了，它就帮你把活儿都干完了，试问，谁不喜欢这种上班的状态呢（除了你的老板哈哈哈）

3.1 Agent 的四个核心能力

规划——把一个模糊的大目标，拆成清晰的小步骤。就像健身，你说"我要变壮"，教练会给你拆成：周一胸、周三背、周五腿。

调用工具——查天气、写代码、发邮件、操作软件，什么都会用。

反思——做错了能自己检查、自己修正。不撞南墙不回头的那种它不会。

记忆——记得之前做过什么、说过什么。不会像金鱼一样七秒就忘。

3.2 你能摸到的 Agent（真实产品举例）

Agent	类型	能做什么
Claude Code	终端 Agent	在你的终端里自动写代码、修 Bug、跑测试。你一句话，它改整个项目。它就是 Agent。
Hermes Agent	全能 Agent	通过微信/飞书就能操作服务器、查数据库、发邮件。不碰终端也能用 Agent。
Cursor Agent	编程 Agent	在 IDE 里自动完成多文件修改，比 Copilot 更强。
Manus	通用任务 Agent	你说"帮我做一份竞品分析报告"，它自己搜资料、做 PPT、生成 PDF 全包。

Ting说：
LLM 是大脑，Agent 是大脑 + 手 + 工具箱。大脑只能想，Agent 能想也能做。你现在还不需要自己搭 Agent，但你应该开始用 Agent 类产品——比如用 Claude Code 帮你写代码，用 Hermes 帮你管服务器。先用起来，再懂原理。

四、上下文窗口

你跟朋友聊天，他记得你们 5 分钟前说的内容。但如果聊了两个小时、话题转了五圈——从天气聊到股市聊到养娃再聊回天气——他大概率忘了最开始说的是什么。AI 也一样。上下文窗口就是 AI 一次能记住多少文本。窗口越大 = 记忆力越好。

模型	上下文窗口	大约等于
GPT-4o	128K	一本《三体》
Claude 4	200K	一本半《三体》
DeepSeek V4	1M	两本《三体》！
Gemini 2.5	1M-2M	两到四本《三体》，变态级别

DeepSeek V4 的 1M 上下文意味着什么？你可以把一整本书扔给它，然后问书里的任何细节——它都记得。这在两年前根本不可想象。我刚开始用的时候，真的有一种"我靠这也行？"的感觉。

不过！窗口再大也有一个坑：窗口满了，最早的内容会被静默地"挤出去"。AI 不会告诉你它忘了——它只是突然回答得牛头不对马嘴。

五、Prompt 提示词

Prompt 其实就是你发给 AI 的那段话。很多人觉得这是"提问"，但它其实更像布置任务。同样的问题，Prompt 写得好和写得烂，结果的差距可能大到离谱。我给你看两个例子：

烂 Prompt：「帮我写个周报」→ AI 不知道写什么、写给谁、多长、什么语气。它只能靠猜，猜出来的大概率不是你想要的。

好 Prompt：「我本周做了这三件事：1. 完成用户调研问卷设计，回收87份；2. 修复了登录页的3个bug；3. 写了产品需求文档初稿。帮我写成周报格式，每条配上数据结果。」→ AI 知道你要什么。结果好 10 倍。

Prompt 的黄金三要素：

角色——告诉 AI 它是谁（"你是一个资深 android 开发工程师"、"你是一个擅长用比喻的老师"）

任务——具体要干嘛，越精确越好

格式——输出什么形式

这三样写清楚了，AI 基本不会跑偏。

六、Fine-tuning 微调

通用大模型什么都会——写诗、写代码、写合同、写情书。但什么都会的结果就是什么都不太精。就像一个健身教练，让他带增肌可以，带康复训练也行，带孕妇瑜伽也能凑合——但你真让他带一个专业举重运动员备赛，他可能就不够用了。

如果你需要 AI 写「医疗器械注册文档」呢？通用模型也能写，但大概率会犯专业错误。这时候就需要 Fine-tuning（微调）。所谓微调就是：在通用模型的基础上，用你特定领域的数据"加练"。

喂它 1000 份医疗器械注册文档 → 它变成医疗器械专家

喂它 1000 篇小红书爆款文案 → 它变成小红书写作专机

喂它你写的 100 篇文章 → 它就能模仿你的风格写

讲真，普通用户暂时不需要碰微调。微调需要准备数据、有技术门槛，是开发者和企业用的。你的任务是先把 Prompt 写好——好的 Prompt 能解决 90% 的问题。剩下 10% 才需要微调。

记住优先级：Prompt > 微调。先把免费的武器用透。

好了，今天先讲到这里，小伙伴们是不是看困了哈哈哈

全篇精华 · 一张表带走

建议截图保存

概念	一句话	你需要记住的	立刻能用的
LLM	读过全互联网的预测机器	主流：GPT-4o / Claude / DeepSeek V4 / Gemini	新手用 DeepSeek 免费版起步
Token	AI 的计费单位	缓存命中便宜 50-200 倍，输出最贵	同对话追问，别开新对话
Agent	能自己动手的 AI	Claude Code、Hermes、Cursor 都是 Agent	先学会用，再学原理
上下文	AI 一次能记住多少	DeepSeek V4=1M Token=两本三体	答非所问就开新对话
Prompt	布置任务的艺术	角色+任务+格式，三要素	你的每一个 Prompt 都值得多写两句
微调	把模型练成专才	喂专业数据，产出专业结果	先练 Prompt，微调以后再说

碎碎念

阿信在演唱会开始前常喊一句话：「准备好了吗？」

台下几万人一起喊：「好了！」

学 AI 也是一场演唱会——你不需要上来就是主唱。你可以坐在台下先听，可以先跟着哼，可以先拿起一把吉他学第一个和弦。

从无到有，就是《第二人生》这首歌的本意。

我这几年从健身小白到练成双开门，从五月天路人粉到追了十几场演唱会，从完全不懂代码到能用 AI 帮我写程序......

每一件事，开场都是零

坚持，就是蜕变的开始！

期待和你们一起进步！

期待你们加入wmls！

欢迎大家积极评论指正！

下期预告：AI 时代，你的饭碗还稳吗？（就业篇）

AI第二人生 · 第 1 期Ting | 五月天 × 撸铁 × AI