你好,我是小白。
前两篇里,我分享了开号的初心,也记录了自己迈出的第一步:
养成「先问AI」的习惯,把AI从搜索引擎,慢慢变成可以商量、可以协作的伙伴。
这段时间我一直在观察,也在思考一个两极分化的现象:
现在几乎所有人都在说AI很强、AI能改变世界、AI未来会替代很多工作。
可真当自己上手去用,却常常觉得:
好像也就那样,回答不够精准,用久了还变笨,并没有传说中那么“万能”。
同样的工具,为什么有的人用得如虎添翼?
有的人却越用越迷茫,甚至觉得AI不过如此?
我以一个刚入门不久的小白身份慢慢体会到:
想真正用好AI,第一步不是疯狂试工具,而是先搞懂基本概念和底层逻辑。
工具永远在迭代,平台一直在更新,今天火这个,明天火那个,追是追不完的。
但只有看懂底层逻辑,你才能明白:
问题到底出在哪、为什么这个工具你用着不顺手、别人为什么能玩出花样。
也才能真正分辨:什么工具适合自己,什么只是跟风凑热闹。
而想看懂底层逻辑,有一个最最基础的前提:
先听懂那些高频出现的名词到底在说什么。
我们可能已经在很多短视频或者别人的聊天中经常听到:
大模型、智能体、多模态、Token、上下文工程、提示词……
听得一头雾水,似懂非懂,
连概念都不清楚,自然很难理解背后的运行方式。
所以这一篇,我就安安静静做一份小白AI入门概念手册吧。
一、关于AI不容易分清楚的概念
- 1.AI = 人工智能(Artificial Intelligence)
- 范围最大,包含: 机器学习、深度学习 计算机视觉、语音识别、 机器人、自动驾驶、 自然语言处理等。
简单理解:一切让机器变“聪明”的技术,都叫AI。
2. LLM=大语言模型(Large Language Model)
AI的一个重要分支,专门负责理解和生成人类语言。
可以把它看作AI的“大脑”,擅长思考、写作、对话、给方案,
但它本身不能直接动手操作软件、点击按钮。
我们常用的豆包、DeepSeek、GPT,都属于大语言模型。
3. AIGC=人工智能生成内容(Artificial Intelligence Generated Content)
= 用模型 “造东西”
文字生成:豆包、Kimi、DeepSeek 图片视频生成:即梦 AI、可灵 图文一起生成:豆包、即梦
一句话:你用它们写文案、写小说、画画、做方案,都叫 AIGC 应用
3. 智能体(AI Agent)
智能体 = 大语言模型(大脑)+ 工具调用能力(手脚)。
它不只是回答问题,还能理解目标、拆解任务、调用工具、执行操作,
甚至根据结果自动优化。
从“告诉你怎么做”,升级成“帮你完成”,是真正可以协作的伙伴。
层级关系:
- 层级排序(从大到小)
AI(全集)→ LLM(核心大脑)→ AIGC/智能体(应用,智能体层级高于AIGC); - 依赖关系
LLM依赖AI技术,AIGC和智能体依赖LLM,智能体可调用AIGC完成内容生成环节; - 核心区别
AIGC是“生成内容”,智能体是“完成任务”,LLM是两者的核心支撑,AI是所有的总称。
用「装修房子」完整类比一遍:
① AI = 整个科技行业
所有智能相关的都算 AI,范围最大。
② 大语言模型(LLM)= 超级会说话、会写东西的大脑
它的核心能力:
懂人类语言 会写文案、写方案、写解释 会聊天、会逻辑推理
放在装修场景里:大语言模型 = 特别会说话、会写方案的设计师大脑
③ AIGC = 用 AI 生成内容
大语言模型生成文字、AI 画图、AI 做视频,都叫 AIGC。
类比:AIGC = 设计师出的设计图、文案、方案(大语言模型是生成这些内容的工具之一)
④ AI Agent(智能体)= 全能装修管家
它会:
听懂你的需求 自己制定计划 调用大语言模型写方案(AIGC) 调用工具查价格、查天气、买材料 全程自主完成任务
二、基础概念:
1. 上下文工程Context
上下文工程就是AI在当前对话里能记住的内容,相当于短期记忆。
- 它支撑对话连贯,让AI记得你刚才说什么
- 但记忆有长度上限,称为“上下文窗口”
- 对话太长、内容太多,早期信息会被遗忘,AI就会“变笨”
这也是为什么长期单聊一个窗口,效果会越来越差。
2. Markdown(MD文件)
一种极简的文本格式,是AI最容易、最高效读取的格式和理解的语言形式。
用来沉淀知识、保存经验,比Word、PDF更适合和AI协作。
3. 提示词Prompt
提示词就是你对AI说的话、下达的指令。
- 指令越清晰、具体、结构化,AI回答越精准
- 模糊的提问只能得到模糊的答案
- 好的提示词包含:身份、任务、要求、格式、例子
它是决定AI表现好坏最核心、最基础的因素。
4. API接口(应用程序编程接口)
API 接口可以理解为系统与系统之间的通用数据插口,就像电脑的 USB 接口、硬盘接口一样。第三方应用要接入微信生态、AI 要调用外部工具或插件,都必须通过 API 接口实现数据互通与功能联动。
5. Token:AI的“乐高积木”
Token 可以理解为AI处理文字时的最小单元,像一块块乐高积木。
- 我们输入的一句话,会被AI拆成若干个Token
- 数字、字母、汉字、标点都会被分别计算
- AI的理解能力、记忆长度、回答长度都由Token决定
- 云端AI服务通常按Token数量计费,Token用量越大成本越高,越费钱。
6.RAG = 检索增强生成
传统搜索(百度):按关键字匹配搜 “报销”,只找带 “报销” 两个字的内容,不认意思。
RAG 检索:按意思匹配(语义向量检索)
先把文档切成小段 提取每段的 “意思” 你提问时,AI 找意思相近的片段即使文档里没有 “报销” 二字,只要写 “交通补贴、差旅费用”,也能被找到。
一句话:传统搜索是找关键字,RAG 是找意思。
7. 智能体集群
由多个专注不同领域的智能体组成的协作系统。
工作一个、兴趣一个、写作一个,各司其职,效率更高,
也不会互相干扰、导致混乱。
三、小白真实案例:为什么几百页文档,AI只找到3处关键词?
很多人跟我一样,刚用AI时都踩过这个坑:
“我把几百页的文档上传,让豆包找所有关键词,结果明明有很多,它却找不全,是不是AI不行?”
下面用前面的概念,把这个问题彻底讲透。
1. 为什么AI会“找不全”?—— 先理解「大模型」与「RAG」的边界
很多人以为,上传文档之后 = AI会像Word查找一样,逐字扫一遍。
其实不是:
- 大语言模型(LLM)擅长推理、写作、理解,不擅长机械检索
- RAG是语义向量检索,不是全文扫描工具
让大模型做“全文精准查找”,本身就是用错场景。
2. 为什么会“读不完”?—— 「上下文工程」与「Token」的限制
这就是典型的底层逻辑问题:
- 文档越长,Token越多
- 超过上下文窗口,AI就会“记不住前面”
- 于是出现遗漏、找不到、答非所问
现在窗口变大了,问题缓解了,但原理没变。
懂原理,你就永远知道:什么任务能交给AI,什么不能。
3. 为什么「提示词」再强也救不了?—— 工具定位决定上限
哪怕你指令写得再完美:
“请把所有关键词找出来,一个都不能漏!”
AI也很难做到100%。
因为提示词再好,也突破不了大模型的天生结构。
机械检索、批量匹配,本来就不是它的主业。
4. 真正正确的思路:用「智能体 + 工具」解决
这也是老师课堂上强调的:
让AI理解需求 → 调用专业工具(如脚本、检索程序)→ 交给工具执行。
这是智能体(Agent)的思维。
让专业的工具,干专业的事。
我之所以拿这个例子来讲,不是为了吐槽AI,而是为了讲清楚一件事:
当你遇到问题时,只要懂底层概念,就能自己分析原因、判断场景、选对工具,而不是只会说“AI不好用”。
AI一直在进化,工具一直在升级,
但底层逻辑永远不变。
- 懂 Context,你就知道为什么对话会“断片”。
- 懂 Token,你就知道为什么长文档会吃力。
- 懂 RAG,你就知道什么时候该开卷、什么时候不该。
- 懂 Agent,你就知道什么时候让AI思考,什么时候让它调用工具。
- 懂 AIGC,你就知道想做视频该选deepseek,还是选即梦、可灵。
不用追新、不用焦虑、不用跟风试工具。
先搞懂概念,再理解逻辑,最后自然知道该选什么工具、怎么用、为什么这么用。
希望这篇基础概念手册,
能帮和我一样的小白,少走弯路,踏实上路。
小白
一个认真补基础、慢慢成长的AI小白
2026.04.18
夜雨聆风