你以为你真的懂AI吗?连什么是LLM都没搞懂还谈什么AI Agent?

AI入门观察 · 基础概念 11

你以为你懂AI？其实连Token和Agent都没搞明白

这篇不是写给工程师的术语表，而是写给普通人的AI认知地图。看懂它，你再听到LLM、Agent、Token、RAG、AGI，就不会只觉得它们是热词。

COLLAGE INDEX

01 AI不是一个App，而是一组让机器完成认知任务的技术

02 从机器学习到大模型：AI家族关系图

03 LLM到底是什么：它不是资料库，而是语言预测器

04 Token、Prompt、Context：模型眼里的文字单位

05 Transformer、Embedding、参数：大模型的骨架和记忆

06 RAG、Agent、工具调用：AI从会说话走向会办事

07 幻觉、风险、治理：为什么AI不能盲信

08 AGI：通用智能不是更会聊天，而是更会迁移和行动

这两年，AI从一个科技新闻里的词，变成了很多人每天都在用的东西。

你可能用它写文案、改简历、做PPT、查资料、生成图片、学习英语、陪孩子做作业，也可能只是把它当成一个更聪明的搜索框。

但问题是：很多人已经开始依赖AI，却还说不清AI到底是什么。

这就像每天都在开车，却不知道方向盘、油门、刹车和导航分别在干什么。短期也能开，但一旦遇到复杂路况，就容易被工具牵着走。

所以第十一篇，我们先不追热点，先把AI的底层词汇讲清楚。

WHAT IS AI

01 / AI不是一个App，而是一组能力

很多人第一次接触AI，是从一个聊天框开始的。你问一句，它回一句，于是很容易把AI理解成一个会聊天的软件。

但AI不是某一个App。AI更像一个大领域：它研究怎样让机器完成原本需要人类智能参与的任务，比如识别图像、理解语言、做判断、生成内容、规划步骤、控制机器人、辅助决策。

最早的AI很多靠人把规则写进去。比如如果出现A，就执行B。今天的AI更多靠机器学习，从大量数据里学规律，再把规律用于新的问题。

一句话理解：AI不是魔法，也不是人格。它是让机器拥有感知、理解、生成、推理和行动能力的一整套技术。

AI FAMILY TREE

02 / 从机器学习到基础模型：先把家族关系看懂

机器学习是AI的重要分支。它不是让程序员把每一条规则都写死，而是让模型从数据中学习模式。

深度学习是机器学习的一类方法，核心是多层神经网络。语音识别、图像识别、机器翻译、自动驾驶感知，都被深度学习深刻改变过。

基础模型是近几年AI爆发的关键。Stanford HAI把基础模型解释为：在大规模、广泛、多样的数据上训练，可以被改造到很多下游任务中的大型模型。

LLM只是基础模型的一种。它主要处理语言。多模态模型则同时处理文字、图片、音频、视频，甚至动作和空间信息。

所以你可以这样记：AI是大领域，机器学习是方法，深度学习是神经网络路线，基础模型是可复用底座，LLM是语言底座。

LARGE LANGUAGE MODEL

03 / LLM到底是什么：它不是资料库，而是语言模型

LLM是Large Language Model，也就是大型语言模型。Stanford HAI的解释是：它是在大量文本数据上训练，用来理解和生成人类语言的AI系统。

它能写文章、回答问题、翻译、总结、写代码，是因为它在训练中学到了语言、知识、模式、结构和任务之间的关系。

但它不是一个传统资料库。资料库是你查什么，它按索引返回什么。LLM更像是在给定上下文后，预测接下来最合适的token，并把很多预测连成完整回答。

这也是为什么它有时看起来很聪明，有时又会一本正经地说错。它擅长生成合理语言，但合理不等于一定真实。

使用LLM时，你要同时记住两件事：它很强，因为它学到了大量模式；它会错，因为它不是自动事实验证器。

TOKEN AND CONTEXT

04 / Token、Prompt、Context：模型眼里的文字单位

Token可以理解成模型处理文字的基本单位。OpenAI文档里说，文本生成和embedding模型会把文本切成token，token可能是一个字、一个词，也可能是词的一部分。

你输入的问题会消耗输入token，模型回复会消耗输出token。很多AI服务按token计费，本质上就是按模型处理了多少内容来计量。

Context window叫上下文窗口，意思是模型这一次能看见多少内容。你把一万字材料贴给它，它能不能完整理解，取决于模型的上下文长度，也取决于它如何利用上下文。

Prompt不是随便问一句。Prompt其实是你给模型的任务说明，里面可以包括目标、背景、角色、限制条件、判断标准、输出格式和示例。

一句话：Token是模型眼里的文字碎片，Context是它这次能看到的范围，Prompt是你对它发出的任务说明书。

TRANSFORMER AND EMBEDDING

05 / Transformer、Attention、Embedding：大模型怎么理解关系

2017年的论文《Attention Is All You Need》提出Transformer架构。它的重要性在于，用注意力机制处理序列关系，让模型更高效地理解一段文本里哪些部分彼此相关。

Attention不是人类意义上的注意力，但可以粗略理解成：模型在处理某个词时，会计算它和其他词之间的关系权重。

Embedding是另一个基础概念。OpenAI文档把embedding解释为数据的向量表示，用来保留内容或语义的某些特征。意思相近的内容，在向量空间里往往更接近。

这就是为什么AI可以做语义搜索。你不一定输入完全一样的关键词，它也能找到意思相近的资料。

Transformer帮模型看关系，Embedding帮模型把意义变成可计算的坐标。

RAG AND KNOWLEDGE

06 / RAG：让AI回答时先去查资料

RAG是Retrieval-Augmented Generation，中文常叫检索增强生成。IBM和NVIDIA都把它解释为：把外部知识库接到大模型上，让模型先检索相关资料，再基于资料生成回答。

这件事非常重要。因为LLM自己的知识来自训练数据，训练数据有限，也不一定包含最新信息、公司内部资料、你的私有文档。

RAG的流程通常是：把资料切块，转成向量，用户提问后先检索相关内容，再把检索结果塞进prompt，让LLM带着资料回答。

RAG可以减少幻觉，也能让回答更贴近指定资料。但它不是万能药。如果检索没找到关键内容，或者找到的内容本身不可靠，模型仍然可能答错。

RAG不是让AI拥有真正记忆，而是给AI临时发了一份可引用的资料包。

AI AGENT

07 / Agent：AI从会说话，走向会办事

如果LLM主要是回答问题，那么Agent更像一个会围绕目标行动的系统。

IBM把AI Agent定义为：能够用可用工具自主设计工作流并执行任务的系统。Anthropic也强调，工作流通常按预设路径运行，而Agent更动态，会根据任务和反馈决定下一步。

一个Agent通常包括几个部分：目标、模型、工具、上下文或记忆、计划器、执行器、检查机制、权限边界。

比如你让AI帮你整理一个行业报告，普通聊天机器人可能给你一段总结。Agent则可能先搜索资料，再读取文档，列大纲，写草稿，检查引用，最后生成可交付版本。

再比如编程Agent。它不仅解释代码，还能读文件、改代码、跑测试、看报错、继续修复。

Agent的关键变化是：AI不只是在文本里给建议，而是开始进入真实工作流。

MODEL WORDS

08 / 这些名词你也要一次看懂

模型：把输入变成输出的系统。LLM、多模态模型、语音模型、图像模型，都属于模型。

参数：模型训练后形成的大量数值，可以理解成模型内部学到的权重。参数不是知识库条目，但它承载了模型学到的模式。

训练：让模型从数据中学习。预训练是打基础，微调是让模型更适合某类任务或风格。

推理：模型真正被你使用时，根据输入生成输出的过程。

对齐：让模型更符合人类意图、规则和安全要求。比如减少有害输出，学会遵循指令。

多模态：不只处理文字，还能处理图片、音频、视频、表格、代码，甚至现实世界传感器数据。

这些词看似技术，其实是在描述AI的生命周期：怎么学、怎么想、怎么用、怎么被约束。

WHY IT HALLUCINATES

09 / 幻觉：为什么AI会自信地说错

AI幻觉不是它故意撒谎，而是模型生成了看起来合理、但事实错误或没有依据的内容。

原因可能有很多：训练数据里没有最新信息，用户问题太模糊，模型没有接入可靠资料，RAG检索失败，或者模型为了完成语言生成任务，把不确定内容补得很完整。

所以AI最危险的地方，不是它回答得像机器，而是它回答得太像真的。

使用AI时，尤其是医疗、法律、金融、投资、考试、合同、代码安全这类高风险场景，不能只看表达流畅不流畅，必须看来源、逻辑和可验证性。

判断AI回答，不要问它像不像人，要问它有没有证据。

GLOBAL AND CHINA

10 / 为什么现在必须懂AI：它已经不是少数人的工具

Stanford HAI 2026 AI Index提到，2025年组织使用AI的比例继续上升，达到88%。生成式AI在三年内达到53%的采用水平，比个人电脑和互联网更快。

同一份报告还提到，中美AI模型性能差距已经基本收窄。到2026年3月，美国顶级模型领先中国顶级模型约2.7%，差距在一年里保持个位数波动。

这意味着AI不再只是海外头部公司的事情。海外有ChatGPT、Claude、Gemini，国内也有DeepSeek、Kimi、豆包、通义、文心等产品。

普通人真正要理解的不是哪个App最火，而是它们背后共同的底层逻辑：模型、token、prompt、context、RAG、agent、风险边界。

当AI成为基础设施，懂AI就不再是技术爱好者的兴趣，而是普通人的新信息素养。

AGI

11 / AGI：通用智能不是更会聊天，而是更会迁移

AGI通常被理解为人工通用智能，但它没有一个全世界完全统一的定义。

OpenAI曾把AGI描述为高度自主、在多数经济价值工作上超过人类的系统。DeepMind研究者提出过AGI等级框架，强调要同时看能力深度、任务广度和自主性。

所以AGI不是简单的聊天机器人升级版。更关键的是：它能不能跨领域学习，能不能把一个领域的经验迁移到另一个领域，能不能长期规划，能不能稳定使用工具，能不能在现实环境中完成复杂目标。

AGI如果真的到来，影响不会只停留在写作、绘画、客服、编程。它可能改变科研、教育、医疗、企业组织、劳动分工、国家竞争和社会治理。

但越接近AGI，越不能只谈能力。还要谈对齐、安全、责任、透明度、权限边界和治理机制。

AI越强，人类越需要清醒。真正的问题不是它能不能替我们做事，而是它在什么规则下替我们做事。

AI术语速记

让机器完成感知、理解、生成、推理、行动等智能任务的技术总称。

机器学习，让模型从数据中学习规律，而不是把规则全部写死。

深度学习，用多层神经网络学习复杂模式。

Foundation Model

基础模型，在广泛数据上训练，可迁移到多种任务。

LLM

大型语言模型，主要处理和生成语言。

Token

模型处理文本的基本单位，也是计费和上下文长度的重要单位。

Prompt

给模型的任务说明书，不只是一个问题。

Context

模型当前能看见和利用的上下文范围。

Embedding

把内容变成向量，让机器计算语义相似度。

RAG

先检索资料，再让模型基于资料生成回答。

Agent

能围绕目标规划、调用工具、执行和检查的AI系统。

AGI

人工通用智能，强调跨任务、跨领域、长期自主行动的能力。

读完这篇，你只需要先记住五句话。

第一，AI不是一个聊天框，而是一整套让机器完成认知任务的技术。

第二，LLM不是资料库，它是基于上下文生成语言的模型。

第三，Token是模型处理文字的单位，Prompt是你给它的任务说明，Context是它这次能看到的范围。

第四，RAG让AI接近资料，Agent让AI进入工作流。

第五，AGI不是更会聊天，而是更会迁移、更会规划、更能行动。

你越早看懂这些词，就越早从AI使用者，变成AI时代的清醒使用者。

留言回执

今天的问题

你最想弄懂的AI词是什么？是LLM、Agent、Token、RAG，还是AGI？

可以在留言区写一句：

“我最想弄懂的AI词是……”

资料参考

1. Stanford HAI 2026 AI Index: Economy：https://hai.stanford.edu/ai-index/2026-ai-index-report/economy

2. Stanford HAI 2026 AI Index: Technical Performance：https://hai.stanford.edu/ai-index/2026-ai-index-report/technical-performance

3. Stanford HAI: What is a Large Language Model：https://hai.stanford.edu/ai-definitions/what-is-a-llm

注：本文用于AI基础认知科普，数据与定义整理截至2026年6月4日。不同机构对AGI、Agent等概念仍可能采用不同边界。