AI 修炼册・第二期|我的豆包连文中有几个关键词都查不出来,是不是笨啊?

你好，我是小白。

前两篇里，我分享了开号的初心，也记录了自己迈出的第一步：

养成「先问AI」的习惯，把AI从搜索引擎，慢慢变成可以商量、可以协作的伙伴。

这段时间我一直在观察，也在思考一个两极分化的现象：

现在几乎所有人都在说AI很强、AI能改变世界、AI未来会替代很多工作。

可真当自己上手去用，却常常觉得：

好像也就那样，回答不够精准，用久了还变笨，并没有传说中那么“万能”。

同样的工具，为什么有的人用得如虎添翼？

有的人却越用越迷茫，甚至觉得AI不过如此？

我以一个刚入门不久的小白身份慢慢体会到：

想真正用好AI，第一步不是疯狂试工具，而是先搞懂基本概念和底层逻辑。

工具永远在迭代，平台一直在更新，今天火这个，明天火那个，追是追不完的。

但只有看懂底层逻辑，你才能明白：

问题到底出在哪、为什么这个工具你用着不顺手、别人为什么能玩出花样。

也才能真正分辨：什么工具适合自己，什么只是跟风凑热闹。

而想看懂底层逻辑，有一个最最基础的前提：

先听懂那些高频出现的名词到底在说什么。

我们可能已经在很多短视频或者别人的聊天中经常听到：

大模型、智能体、多模态、Token、上下文工程、提示词……

听得一头雾水，似懂非懂，

连概念都不清楚，自然很难理解背后的运行方式。

所以这一篇，我就安安静静做一份小白AI入门概念手册吧。

一、关于AI不容易分清楚的概念

1.AI = 人工智能（Artificial Intelligence）

是整个大领域，相当于 “计算机科学” 这个概念。

范围最大，包含：机器学习、深度学习计算机视觉、语音识别、机器人、自动驾驶、自然语言处理等。

简单理解：一切让机器变“聪明”的技术，都叫AI。

2. LLM=大语言模型（Large Language Model）

AI的一个重要分支，专门负责理解和生成人类语言。

可以把它看作AI的“大脑”，擅长思考、写作、对话、给方案，

但它本身不能直接动手操作软件、点击按钮。

我们常用的豆包、DeepSeek、GPT，都属于大语言模型。

3. AIGC=人工智能生成内容（Artificial Intelligence Generated Content）

= 用模型 “造东西”

文字生成：豆包、Kimi、DeepSeek
图片视频生成：即梦 AI、可灵
图文一起生成：豆包、即梦

一句话：你用它们写文案、写小说、画画、做方案，都叫 AIGC 应用

3. 智能体（AI Agent）

智能体 = 大语言模型（大脑）+ 工具调用能力（手脚）。

它不只是回答问题，还能理解目标、拆解任务、调用工具、执行操作，

甚至根据结果自动优化。

从“告诉你怎么做”，升级成“帮你完成”，是真正可以协作的伙伴。

层级关系：

层级排序（从大到小）
AI（全集）→ LLM（核心大脑）→ AIGC/智能体（应用，智能体层级高于AIGC）；
依赖关系
LLM依赖AI技术，AIGC和智能体依赖LLM，智能体可调用AIGC完成内容生成环节；
核心区别
AIGC是“生成内容”，智能体是“完成任务”，LLM是两者的核心支撑，AI是所有的总称。

用「装修房子」完整类比一遍：

① AI = 整个科技行业

所有智能相关的都算 AI，范围最大。

② 大语言模型（LLM）= 超级会说话、会写东西的大脑

它的核心能力：

懂人类语言
会写文案、写方案、写解释
会聊天、会逻辑推理

放在装修场景里：大语言模型 = 特别会说话、会写方案的设计师大脑

③ AIGC = 用 AI 生成内容

大语言模型生成文字、AI 画图、AI 做视频，都叫 AIGC。

类比：AIGC = 设计师出的设计图、文案、方案（大语言模型是生成这些内容的工具之一）

④ AI Agent（智能体）= 全能装修管家

它会：

听懂你的需求
自己制定计划
调用大语言模型写方案（AIGC）
调用工具查价格、查天气、买材料
全程自主完成任务

二、基础概念：

1. 上下文工程Context

上下文工程就是AI在当前对话里能记住的内容，相当于短期记忆。

- 它支撑对话连贯，让AI记得你刚才说什么

- 但记忆有长度上限，称为“上下文窗口”

- 对话太长、内容太多，早期信息会被遗忘，AI就会“变笨”

这也是为什么长期单聊一个窗口，效果会越来越差。

2. Markdown（MD文件）

一种极简的文本格式，是AI最容易、最高效读取的格式和理解的语言形式。

用来沉淀知识、保存经验，比Word、PDF更适合和AI协作。

3. 提示词Prompt

提示词就是你对AI说的话、下达的指令。

- 指令越清晰、具体、结构化，AI回答越精准

- 模糊的提问只能得到模糊的答案

- 好的提示词包含：身份、任务、要求、格式、例子

它是决定AI表现好坏最核心、最基础的因素。

4. API接口(应用程序编程接口)

API 接口可以理解为系统与系统之间的通用数据插口，就像电脑的 USB 接口、硬盘接口一样。第三方应用要接入微信生态、AI 要调用外部工具或插件，都必须通过 API 接口实现数据互通与功能联动。

5. Token：AI的“乐高积木”

Token 可以理解为AI处理文字时的最小单元，像一块块乐高积木。

- 我们输入的一句话，会被AI拆成若干个Token

- 数字、字母、汉字、标点都会被分别计算

- AI的理解能力、记忆长度、回答长度都由Token决定

- 云端AI服务通常按Token数量计费，Token用量越大成本越高，越费钱。

6.RAG = 检索增强生成

传统搜索（百度）：按关键字匹配搜 “报销”，只找带 “报销” 两个字的内容，不认意思。
RAG 检索：按意思匹配（语义向量检索）

先把文档切成小段
提取每段的 “意思”
你提问时，AI 找意思相近的片段即使文档里没有 “报销” 二字，只要写 “交通补贴、差旅费用”，也能被找到。

一句话：传统搜索是找关键字，RAG 是找意思。

7. 智能体集群

由多个专注不同领域的智能体组成的协作系统。

工作一个、兴趣一个、写作一个，各司其职，效率更高，

也不会互相干扰、导致混乱。

三、小白真实案例：为什么几百页文档，AI只找到3处关键词？

很多人跟我一样，刚用AI时都踩过这个坑：

“我把几百页的文档上传，让豆包找所有关键词，结果明明有很多，它却找不全，是不是AI不行？”

下面用前面的概念，把这个问题彻底讲透。

1. 为什么AI会“找不全”？—— 先理解「大模型」与「RAG」的边界

很多人以为，上传文档之后 = AI会像Word查找一样，逐字扫一遍。

其实不是：

- 大语言模型（LLM）擅长推理、写作、理解，不擅长机械检索

- RAG是语义向量检索，不是全文扫描工具

让大模型做“全文精准查找”，本身就是用错场景。

2. 为什么会“读不完”？—— 「上下文工程」与「Token」的限制

这就是典型的底层逻辑问题：

- 文档越长，Token越多

- 超过上下文窗口，AI就会“记不住前面”

- 于是出现遗漏、找不到、答非所问

现在窗口变大了，问题缓解了，但原理没变。

懂原理，你就永远知道：什么任务能交给AI，什么不能。

3. 为什么「提示词」再强也救不了？—— 工具定位决定上限

哪怕你指令写得再完美：

“请把所有关键词找出来，一个都不能漏！”

AI也很难做到100%。

因为提示词再好，也突破不了大模型的天生结构。

机械检索、批量匹配，本来就不是它的主业。

4. 真正正确的思路：用「智能体 + 工具」解决

这也是老师课堂上强调的：

让AI理解需求 → 调用专业工具（如脚本、检索程序）→ 交给工具执行。

这是智能体（Agent）的思维。

让专业的工具，干专业的事。

我之所以拿这个例子来讲，不是为了吐槽AI，而是为了讲清楚一件事：

当你遇到问题时，只要懂底层概念，就能自己分析原因、判断场景、选对工具，而不是只会说“AI不好用”。

AI一直在进化，工具一直在升级，

但底层逻辑永远不变。

- 懂 Context，你就知道为什么对话会“断片”。

- 懂 Token，你就知道为什么长文档会吃力。

- 懂 RAG，你就知道什么时候该开卷、什么时候不该。

- 懂 Agent，你就知道什么时候让AI思考，什么时候让它调用工具。

- 懂 AIGC，你就知道想做视频该选deepseek，还是选即梦、可灵。

不用追新、不用焦虑、不用跟风试工具。

先搞懂概念，再理解逻辑，最后自然知道该选什么工具、怎么用、为什么这么用。

希望这篇基础概念手册，

能帮和我一样的小白，少走弯路，踏实上路。

小白

一个认真补基础、慢慢成长的AI小白

2026.04.18