
AI入门观察 · 基础概念 11
你以为你懂AI?其实连Token和Agent都没搞明白
这篇不是写给工程师的术语表,而是写给普通人的AI认知地图。看懂它,你再听到LLM、Agent、Token、RAG、AGI,就不会只觉得它们是热词。
COLLAGE INDEX
01 AI不是一个App,而是一组让机器完成认知任务的技术
02 从机器学习到大模型:AI家族关系图
03 LLM到底是什么:它不是资料库,而是语言预测器
04 Token、Prompt、Context:模型眼里的文字单位
05 Transformer、Embedding、参数:大模型的骨架和记忆
06 RAG、Agent、工具调用:AI从会说话走向会办事
07 幻觉、风险、治理:为什么AI不能盲信
08 AGI:通用智能不是更会聊天,而是更会迁移和行动
这两年,AI从一个科技新闻里的词,变成了很多人每天都在用的东西。
你可能用它写文案、改简历、做PPT、查资料、生成图片、学习英语、陪孩子做作业,也可能只是把它当成一个更聪明的搜索框。
但问题是:很多人已经开始依赖AI,却还说不清AI到底是什么。
这就像每天都在开车,却不知道方向盘、油门、刹车和导航分别在干什么。短期也能开,但一旦遇到复杂路况,就容易被工具牵着走。
所以第十一篇,我们先不追热点,先把AI的底层词汇讲清楚。
WHAT IS AI
01 / AI不是一个App,而是一组能力
很多人第一次接触AI,是从一个聊天框开始的。你问一句,它回一句,于是很容易把AI理解成一个会聊天的软件。
但AI不是某一个App。AI更像一个大领域:它研究怎样让机器完成原本需要人类智能参与的任务,比如识别图像、理解语言、做判断、生成内容、规划步骤、控制机器人、辅助决策。
最早的AI很多靠人把规则写进去。比如如果出现A,就执行B。今天的AI更多靠机器学习,从大量数据里学规律,再把规律用于新的问题。
一句话理解:AI不是魔法,也不是人格。它是让机器拥有感知、理解、生成、推理和行动能力的一整套技术。
AI FAMILY TREE
02 / 从机器学习到基础模型:先把家族关系看懂
机器学习是AI的重要分支。它不是让程序员把每一条规则都写死,而是让模型从数据中学习模式。
深度学习是机器学习的一类方法,核心是多层神经网络。语音识别、图像识别、机器翻译、自动驾驶感知,都被深度学习深刻改变过。
基础模型是近几年AI爆发的关键。Stanford HAI把基础模型解释为:在大规模、广泛、多样的数据上训练,可以被改造到很多下游任务中的大型模型。
LLM只是基础模型的一种。它主要处理语言。多模态模型则同时处理文字、图片、音频、视频,甚至动作和空间信息。
所以你可以这样记:AI是大领域,机器学习是方法,深度学习是神经网络路线,基础模型是可复用底座,LLM是语言底座。

LARGE LANGUAGE MODEL
03 / LLM到底是什么:它不是资料库,而是语言模型
LLM是Large Language Model,也就是大型语言模型。Stanford HAI的解释是:它是在大量文本数据上训练,用来理解和生成人类语言的AI系统。
它能写文章、回答问题、翻译、总结、写代码,是因为它在训练中学到了语言、知识、模式、结构和任务之间的关系。
但它不是一个传统资料库。资料库是你查什么,它按索引返回什么。LLM更像是在给定上下文后,预测接下来最合适的token,并把很多预测连成完整回答。
这也是为什么它有时看起来很聪明,有时又会一本正经地说错。它擅长生成合理语言,但合理不等于一定真实。
使用LLM时,你要同时记住两件事:它很强,因为它学到了大量模式;它会错,因为它不是自动事实验证器。
TOKEN AND CONTEXT
04 / Token、Prompt、Context:模型眼里的文字单位
Token可以理解成模型处理文字的基本单位。OpenAI文档里说,文本生成和embedding模型会把文本切成token,token可能是一个字、一个词,也可能是词的一部分。
你输入的问题会消耗输入token,模型回复会消耗输出token。很多AI服务按token计费,本质上就是按模型处理了多少内容来计量。
Context window叫上下文窗口,意思是模型这一次能看见多少内容。你把一万字材料贴给它,它能不能完整理解,取决于模型的上下文长度,也取决于它如何利用上下文。
Prompt不是随便问一句。Prompt其实是你给模型的任务说明,里面可以包括目标、背景、角色、限制条件、判断标准、输出格式和示例。
一句话:Token是模型眼里的文字碎片,Context是它这次能看到的范围,Prompt是你对它发出的任务说明书。
TRANSFORMER AND EMBEDDING
05 / Transformer、Attention、Embedding:大模型怎么理解关系
2017年的论文《Attention Is All You Need》提出Transformer架构。它的重要性在于,用注意力机制处理序列关系,让模型更高效地理解一段文本里哪些部分彼此相关。
Attention不是人类意义上的注意力,但可以粗略理解成:模型在处理某个词时,会计算它和其他词之间的关系权重。
Embedding是另一个基础概念。OpenAI文档把embedding解释为数据的向量表示,用来保留内容或语义的某些特征。意思相近的内容,在向量空间里往往更接近。
这就是为什么AI可以做语义搜索。你不一定输入完全一样的关键词,它也能找到意思相近的资料。
Transformer帮模型看关系,Embedding帮模型把意义变成可计算的坐标。

RAG AND KNOWLEDGE
06 / RAG:让AI回答时先去查资料
RAG是Retrieval-Augmented Generation,中文常叫检索增强生成。IBM和NVIDIA都把它解释为:把外部知识库接到大模型上,让模型先检索相关资料,再基于资料生成回答。
这件事非常重要。因为LLM自己的知识来自训练数据,训练数据有限,也不一定包含最新信息、公司内部资料、你的私有文档。
RAG的流程通常是:把资料切块,转成向量,用户提问后先检索相关内容,再把检索结果塞进prompt,让LLM带着资料回答。
RAG可以减少幻觉,也能让回答更贴近指定资料。但它不是万能药。如果检索没找到关键内容,或者找到的内容本身不可靠,模型仍然可能答错。
RAG不是让AI拥有真正记忆,而是给AI临时发了一份可引用的资料包。
AI AGENT
07 / Agent:AI从会说话,走向会办事
如果LLM主要是回答问题,那么Agent更像一个会围绕目标行动的系统。
IBM把AI Agent定义为:能够用可用工具自主设计工作流并执行任务的系统。Anthropic也强调,工作流通常按预设路径运行,而Agent更动态,会根据任务和反馈决定下一步。
一个Agent通常包括几个部分:目标、模型、工具、上下文或记忆、计划器、执行器、检查机制、权限边界。
比如你让AI帮你整理一个行业报告,普通聊天机器人可能给你一段总结。Agent则可能先搜索资料,再读取文档,列大纲,写草稿,检查引用,最后生成可交付版本。
再比如编程Agent。它不仅解释代码,还能读文件、改代码、跑测试、看报错、继续修复。
Agent的关键变化是:AI不只是在文本里给建议,而是开始进入真实工作流。

MODEL WORDS
08 / 这些名词你也要一次看懂
模型:把输入变成输出的系统。LLM、多模态模型、语音模型、图像模型,都属于模型。
参数:模型训练后形成的大量数值,可以理解成模型内部学到的权重。参数不是知识库条目,但它承载了模型学到的模式。
训练:让模型从数据中学习。预训练是打基础,微调是让模型更适合某类任务或风格。
推理:模型真正被你使用时,根据输入生成输出的过程。
对齐:让模型更符合人类意图、规则和安全要求。比如减少有害输出,学会遵循指令。
多模态:不只处理文字,还能处理图片、音频、视频、表格、代码,甚至现实世界传感器数据。
这些词看似技术,其实是在描述AI的生命周期:怎么学、怎么想、怎么用、怎么被约束。
WHY IT HALLUCINATES
09 / 幻觉:为什么AI会自信地说错
AI幻觉不是它故意撒谎,而是模型生成了看起来合理、但事实错误或没有依据的内容。
原因可能有很多:训练数据里没有最新信息,用户问题太模糊,模型没有接入可靠资料,RAG检索失败,或者模型为了完成语言生成任务,把不确定内容补得很完整。
所以AI最危险的地方,不是它回答得像机器,而是它回答得太像真的。
使用AI时,尤其是医疗、法律、金融、投资、考试、合同、代码安全这类高风险场景,不能只看表达流畅不流畅,必须看来源、逻辑和可验证性。
判断AI回答,不要问它像不像人,要问它有没有证据。
GLOBAL AND CHINA
10 / 为什么现在必须懂AI:它已经不是少数人的工具
Stanford HAI 2026 AI Index提到,2025年组织使用AI的比例继续上升,达到88%。生成式AI在三年内达到53%的采用水平,比个人电脑和互联网更快。
同一份报告还提到,中美AI模型性能差距已经基本收窄。到2026年3月,美国顶级模型领先中国顶级模型约2.7%,差距在一年里保持个位数波动。
这意味着AI不再只是海外头部公司的事情。海外有ChatGPT、Claude、Gemini,国内也有DeepSeek、Kimi、豆包、通义、文心等产品。
普通人真正要理解的不是哪个App最火,而是它们背后共同的底层逻辑:模型、token、prompt、context、RAG、agent、风险边界。
当AI成为基础设施,懂AI就不再是技术爱好者的兴趣,而是普通人的新信息素养。
AGI
11 / AGI:通用智能不是更会聊天,而是更会迁移
AGI通常被理解为人工通用智能,但它没有一个全世界完全统一的定义。
OpenAI曾把AGI描述为高度自主、在多数经济价值工作上超过人类的系统。DeepMind研究者提出过AGI等级框架,强调要同时看能力深度、任务广度和自主性。
所以AGI不是简单的聊天机器人升级版。更关键的是:它能不能跨领域学习,能不能把一个领域的经验迁移到另一个领域,能不能长期规划,能不能稳定使用工具,能不能在现实环境中完成复杂目标。
AGI如果真的到来,影响不会只停留在写作、绘画、客服、编程。它可能改变科研、教育、医疗、企业组织、劳动分工、国家竞争和社会治理。
但越接近AGI,越不能只谈能力。还要谈对齐、安全、责任、透明度、权限边界和治理机制。
AI越强,人类越需要清醒。真正的问题不是它能不能替我们做事,而是它在什么规则下替我们做事。

AI术语速记
AI
让机器完成感知、理解、生成、推理、行动等智能任务的技术总称。
ML
机器学习,让模型从数据中学习规律,而不是把规则全部写死。
DL
深度学习,用多层神经网络学习复杂模式。
Foundation Model
基础模型,在广泛数据上训练,可迁移到多种任务。
LLM
大型语言模型,主要处理和生成语言。
Token
模型处理文本的基本单位,也是计费和上下文长度的重要单位。
Prompt
给模型的任务说明书,不只是一个问题。
Context
模型当前能看见和利用的上下文范围。
Embedding
把内容变成向量,让机器计算语义相似度。
RAG
先检索资料,再让模型基于资料生成回答。
Agent
能围绕目标规划、调用工具、执行和检查的AI系统。
AGI
人工通用智能,强调跨任务、跨领域、长期自主行动的能力。
读完这篇,你只需要先记住五句话。
第一,AI不是一个聊天框,而是一整套让机器完成认知任务的技术。
第二,LLM不是资料库,它是基于上下文生成语言的模型。
第三,Token是模型处理文字的单位,Prompt是你给它的任务说明,Context是它这次能看到的范围。
第四,RAG让AI接近资料,Agent让AI进入工作流。
第五,AGI不是更会聊天,而是更会迁移、更会规划、更能行动。
你越早看懂这些词,就越早从AI使用者,变成AI时代的清醒使用者。
留言回执
今天的问题
你最想弄懂的AI词是什么?是LLM、Agent、Token、RAG,还是AGI?
可以在留言区写一句:
“我最想弄懂的AI词是……”
资料参考
1. Stanford HAI 2026 AI Index: Economy:https://hai.stanford.edu/ai-index/2026-ai-index-report/economy
2. Stanford HAI 2026 AI Index: Technical Performance:https://hai.stanford.edu/ai-index/2026-ai-index-report/technical-performance
3. Stanford HAI: What is a Large Language Model:https://hai.stanford.edu/ai-definitions/what-is-a-llm
注:本文用于AI基础认知科普,数据与定义整理截至2026年6月4日。不同机构对AGI、Agent等概念仍可能采用不同边界。
夜雨聆风