自2023年以来,大模型浪潮席卷各行各业,AI相关的高频词几乎每天都在刷新认知:Transformer、Embedding、Agent、RAG、MCP、RLHF、CoT、Diffusion……
第一次看这些词的时候,没有一个词让我立刻知道"它和其他词是什么关系"——它们是并列的、嵌套的、还是独立的概念?
此次本文就是试着回答这个问题的,把分散在各处的AI词汇,收拢到一张看得清脉络的族谱图里:哪些是底层原理、哪些是训练阶段的产物、哪些是算力层的硬件、哪些是产品层的工程工具、哪些是新兴的业务方向。读到后面你会发现,很多看起来很高大上的词,其实都可以拆解成几个基础概念的组合。
前篇《智能、语言、LLM和Agent》已经把"心智化"、"LLM猜词机制"、"Agent四大组件"这些基础概念拆开讲过了,本文不再重复,而是把笔墨留给更广的词汇生态——你会发现,很多新词其实只是旧词在新场景下的变形。
1、基础理论与底层架构
要弄懂AI,第一步是搞清它的族谱。"AI"(Artificial Intelligence,人工智能)是总称——所有会思考、会决策、会学习的智能系统都归它管,会下棋的电脑、能聊天的助手,都是这个大家族里的成员。这个家族的核心骨架叫"Neural Network"(神经网络)——一种模仿生物大脑神经元连接方式的计算结构。2010年以后这一波AI浪潮,几乎所有的明星产品都建立在这个骨架上,包括ChatGPT、Claude、Gemini。神经网络的现代加强版叫"Deep Learning"(DL,深度学习)——堆叠多层神经元让模型能从数据里自动提取特征,不用人手动设计"什么算猫、什么算狗"。这一波AI浪潮的真正起点就是深度学习——没有DL,就没有后面的所有故事。
DL内部也有老前辈和新人的区分:
①"CNN"(Convolutional Neural Network,卷积神经网络)——图像识别的王者,能像人眼一样扫描局部特征,从像素里看出猫狗。2010年代初AlexNet在ImageNet上的那次屠榜,算是CNN高光的起点。
②"RNN"(Recurrent Neural Network,循环神经网络)——处理序列数据的老炮,文本、语音、时间序列都曾是它的主场。它现在基本被Transformer卷下了历史舞台,但2015-2018年那一波机器翻译进步的红利,它吃到了大头。
当下最主流的架构是"Transformer"——依赖"Attention"(注意力机制)来捕捉句子中词与词之间的语义关联。比如"小明借给小华一本书",模型能准确判断动作的方向是从小明到小华,而不是反过来。这背后依赖的就是Attention的加权机制。
很多顶尖大模型还用了"MoE"(Mixture of Experts,混合专家)架构——把一个大模型拆成许多小专家,每次只激活其中一部分来回答问题。我自己的理解是它像医院里的分诊台:先判断你该看哪个科,再挂对应专家的号,省时省力。
"Parameters"(参数)是模型的知识储备,每个参数都像神经元之间的一根线路——线路越密,模型能记住和理解的内容就越多。GPT-3有175B个参数,传闻GPT-4有1.8T(这个数字没有官方确认,仅是第三方推测)。
最后,"Embedding"(嵌入)是连接人类语言和机器数学的关键桥梁——它把文字转换成向量,让"北京-中国+日本≈东京"这种跨语言、跨实体的语义关系可以被算术化。没有Embedding,AI根本读不懂语言——只能处理一串串ID,而不能理解ID之间的语义。
2、模型训练与优化技术
一个模型从白纸一张到能说会道,背后是层层训练。可以把这个过程看作培养一个人才的过程。
首先得有"Dataset"(数据集)/"Training Data"(训练数据)——这是模型的教材。没有数据就没有训练。所谓"吃什么决定长成什么样"——垃圾教材喂进去,模型也只会吐垃圾。
"Tokenizer"(分词器)是文本进入模型的第一把切菜刀——它把句子切成模型能消化的最小单位。后文§4还会详细聊"Token"(词元)这个概念,这里先记住它是模型消化文本的最小颗粒即可。主流的切法叫"BPE"(Byte Pair Encoding,字节对编码),核心思路就是先把高频的字词合并,再把生僻字拆开,兼顾效率和覆盖率。模型能认出的所有Token构成"Vocabulary"(词表)——你可以把它当成模型的全部汉字表。
"Pre-training"(预训练)是第一关——通识教育,让模型在海量数据中奠定通用能力。预训练令人印象最深的是:原来真的可以无监督地学完整个互联网——只要数据够大、算力够猛。
训练过程不是魔法,是工程。背后有三件发动机在默默工作:
①"Loss Function"(损失函数)——衡量模型答得有多差
②"Gradient Descent"(梯度下降)——告诉模型该怎么改
③"Backpropagation"(反向传播)——把错误信号层层传回每一根线路
三件套少了任何一件,模型都训不出来。训练时还有四个节奏单位:"Epoch"(整本教材过一遍)、"Batch"(一批样本)、"Batch Size"(每批多少样本)、"Iteration"(每批更新一次参数)。
但光有通识还不够,还得有"Post-training"(后训练)来塑形——其中最常见的两招是"SFT"(Supervised Fine-Tuning,监督微调)和"RLHF"(Reinforcement Learning from Human Feedback,人类反馈强化学习)。前者相当于按正确答案学,后者相当于按老师的反馈改——两者的共同目标都是让模型"Alignment"(对齐)人类意图,并尽量减少"Data Bias"(数据偏差)。
"RLAIF"(用AI反馈代替人类反馈)解决了人类标注太贵的问题,Anthropic主推的"Constitutional AI"(宪法式AI)给AI立一套宪法原则来让它自评自己。
2024年起,"DPO"(Direct Preference Optimization,直接偏好优化)异军突起——它跳过了复杂的强化学习框架,直接让模型学会哪个回答更好。
如果说预训练是通识教育,那"Fine-tuning"(微调)就是专业进修。考虑到完整微调成本太高,"LoRA"(Low-Rank Adaptation,低秩适配)这种轻量化微调技术应运而生——它属于更大的"PEFT"(Parameter-Efficient Fine-Tuning,参数高效微调)门派,只调整一小部分参数就能达到接近全量微调的效果。就像在主干道上开一条小岔路——既省钱又高效。"Transfer Learning"(迁移学习)则是更底层的举一反三能力——在一个任务上学到的知识,可以迁移到相关的新任务上。
模型还能举一反三地处理新问题——"Zero-shot Learning"是完全不学就会,给一个新任务也能上手;"Few-shot Learning"是看一两个例子就懂。
"Knowledge Distillation"(知识蒸馏)走的是大师带徒弟的路线——让大模型(老师)把知识言传身教给小模型(学生)。"Quantization"(量化)和"Pruning"(剪枝)则是两套压缩术——量化降低参数精度,剪枝砍掉不重要的线路,两者经常搭配使用,让模型在手机、嵌入式设备上也能跑起来。手机端LLM这两年进步神速,很大程度就是量化技术成熟的功劳。
训练中还有几个绕不开的坑:
①"Overfitting"(过拟合)——模型把教材背得滚瓜烂熟,但遇到新题就懵
②"Underfitting"(欠拟合)——模型连教材都没学明白
③优秀的"Generalization"(泛化)能力是所有训练追求的圣杯——见多识广,又能灵活应变
训练做得好不好,得靠"Benchmark"(基准测试)来打分——MMLU考综合知识,GSM8K考数学,Human Eval考编程……有一种刷榜式训练——专门针对某个Benchmark调参,在榜上一飞冲天,到真实场景下就拉胯。
3、算力基础设施与硬件
训练和运行大模型,本质上是一场算力军备竞赛。"GPU/AI Chips"(GPU/AI芯片)是算力的心脏,擅长并行计算,能同时处理成千上万的矩阵运算。普通CPU就像一个老练的会计师,一次只能算一道题;而GPU就像几千个小学生同时答题——单个小学生的能力不如会计师,但几千个同时动手,速度提升了好几个数量级。
AI芯片的门派很多:
①NVIDIA的"GPU"(最主流)
②Google自家的"TPU"(Tensor Processing Unit,张量处理单元)——在Google内部的搜索、翻译、AlphaFold里都用
③手机和边缘设备上的"NPU"(Neural Processing Unit,神经网络处理单元)——Apple Silicon、华为麒麟、高通骁龙里都有它的身影
④"CUDA"——NVIDIA GPU的独家编程语言,所有AI工程师的必修课
⑤"ROCm"——与之对标的开源阵营,AMD显卡用户在等它成熟
GPU也分三六九等。"VRAM"(显存)或"HBM"(High Bandwidth Memory,高带宽内存)是GPU的桌面大小——桌面越大,能同时放下的模型就越大。跑一个70B参数的模型,至少需要2张80GB显存的GPU,否则连加载都加载不了。普通开发者想本地跑大模型,显存是第一道门槛。
这催生了"Cloud"(云计算)模式——企业不用自己买一堆GPU,按量租用云上的算力,就像电力公司按度数收费。个人玩用Colab、Kaggle;中小企业用AWS、Azure、阿里云;训练大模型用Lambda Labs、Core Weave这类专业厂商。
这些芯片通常集中部署在"Data Center"(数据中心)——你可以把它想象成AI发电厂,里面堆满了成千上万台机器,24小时不间断地训练和运行模型。发电就需要能源——"Energy/Power"(能源/电力)因此成为AI时代的新石油。训练一个前沿大模型所消耗的电力,往往相当于一个小型城市数月的用电量。
这件事已经升级为能源、环境与地缘政治交织的战略问题——"Carbon Footprint"(碳足迹)这个原本属于环保圈的概念,被频繁拉进AI讨论。某些厂商一边宣传绿色AI,一边把训练外包到火电厂密集的地区——这个话题以后会被越揭越深。
4、模型属性与核心机制
"LLM"(Large Language Model,大语言模型)是当下最炙手可热的大模型类型,专攻语言任务。按开放程度,LLM分为"Open Source"(开源)和"Closed Source"(闭源)。闭源模型性能强,开源模型可控性强——闭源代表ChatGPT、Claude、Gemini,开源代表Meta的Llama、阿里Qwen、DeepSeek。
它有不同的版本和类型:
①"Foundation Model/Base Model"(基础模型/基座模型)——未经特殊训练的母版,可以理解为刚出狱的野马
②"Instruction Tuning"(指令微调)——给母版补上听懂人话的能力,相当于把野马训练成能骑着走的马
③"Reasoning Model"(推理模型)——2024-2025年异军突起的新品类,以OpenAI的o1/o3、DeepSeek-R1为代表,主打想清楚再回答,在数学、编程、复杂推理任务上大幅超越传统LLM
LLM的核心工作原理其实很简单——它本质上是一个猜词高手,每次根据上文预测下一个最可能出现的词。这种方式叫"Autoregressive"(自回归)——一个字一个字往外吐。
模型内部会先把每个可能的下文算出一个原始分数,叫"Logits",然后通过"Softmax"函数转换成一个"Probability Distribution"(概率分布)——本质上是把模型的感觉变成百分比。模型在每一步都像是高管会议——100个备选答案举手表决,得票最高的那个被选中。
它处理文本的最小单位是"Token"(词元)——一段中文可能被切成几个字,一段英文可能被切成词或子词。虽然切词是个纯工程细节,但同样的中文,用BPE切和用jieba切,模型效果天差地别。
而这一切的边界是"Context Window"(上下文窗口)——它就像模型的短期记忆容量,窗口越大,模型能"看到"的上下文就越长。2024年起各家厂商开始卷"Long Context"(长上下文),从128K飙到1M、10MTokens——相当于让模型一次性读完一整本《三体》三部曲。Long Context更像是一把双刃剑——长是真的长,但长注意力衰减的问题(前面的内容被记住,后面的内容被忽视)至今没真正解决。
为了控制输出的多样性,"Temperature"参数登场——可以把它想象成创作的温度计:温度越高,输出越发散、有创意;温度越低,输出越确定、保守。和它配套的还有"Top-p"(核采样)和"Top-k"(取概率最高的前k个候选)——它们都是在放开创意和避免胡说之间找平衡,比如:写代码用temperature=0,写文案用temperature=0.7,写创意用temperature=1.0+。
"Beam Search"(束搜索)是推理时多路并行搜索最优答案的策略——一次想N种走法,挑最好的那条。这个在传统NLP里很常用,但LLM时代已经被Top-p/Top-k取代了——因为Beam Search计算成本太高。
但LLM有时会一本正经地胡说八道——这就是"Hallucination"(幻觉)。比如问某公司的CEO是谁,模型会自信地编出一个名字,你不去查证就可能上新闻。
当模型规模、训练数据、能力积累到某个临界点时,常常会突然开窍,出现"Emergence"(涌现)能力——这是量变引起质变的典型例子。但涌现到底是模型真的变聪明了,还是评估方法恰好能检测出来了——这个问题至今没有共识。
"Inference"(推理)是模型实际应用的过程,而"Deep Thinking"(深度思考)则是推理的进阶版——让模型在回答前先想清楚。"Reasoning Model"的本质就是"Deep Thinking"的工业化。
除了LLM,AI世界还有几条图像/视频生成路线:
①"Diffusion Model"(扩散模型)——当前图像生成的主力军,Stable Diffusion、Midjourney、Sora背后都是它。原理是先学怎么把一张图慢慢变成噪点,再学会怎么把噪点一步步还原成新图
②"GAN"(生成对抗网络)——上一代图像生成的王者,"一个造假,一个打假"互相博弈,2017-2020是GAN的高光期
③"VAE"(变分自编码器)——更老一辈的生成模型,现在主要配合Diffusion使用
最后,"Multimodel"(多模态)让模型不再局限于文字——能同时处理图像、音频、视频等多种信息。这一类的最新形态叫"World Model"(世界模型)——Yann LeCun力推的方向,让AI学会理解物理世界的运行规律。在我个人看来,LLM的天花板可能就是语言,而World Model的天花板才是智能。
"Embodied AI"(具身智能)/"Robotics"(机器人)则让AI走进物理世界——"Autonomous Driving"(自动驾驶)是其最典型的落地场景。自动驾驶可能是World Model最早大规模落地的场景——Waymo、Tesla FSD都在抢。
这一切的最终成果就是"AIGC"(AI Generated Content,AI生成内容)——写文章、画插图、编曲、剪视频,AI都能一显身手。对于大多数人来说,AIGC最多的场景是写文章配图、生成PPT插画、做短视频片段——但说实话,一次不能用的比例依然偏高。
5、提示词工程与人机交互
如果说模型是舞台上的演员,那"Prompt"(提示词)就是递给它的剧本——问什么、怎么问、要求什么格式,直接决定了模型给出什么样的答案。同一个问题,用词不同、格式不同、上下文不同,模型能给出天差地别的答案。
"System Prompt"(系统提示词)是幕后导演的指令,它设定模型的角色、行为边界和全局规则——这一块是产品级Prompt的核心。写好一个System Prompt通常要迭代20-50次,直接拍脑袋的多半不好用。
"Prompt Engineering"(提示词工程)研究的是如何写好剧本的技术。这门技术2023年被过度神化,现在回归理性了——好的prompt确实能提升效果,但没有2023年那波自媒体吹的那么邪乎。
常用技术大致分这些:
①"Zero-shot Prompting"(零样本提示)——不给任何例子直接提问
②"Few-shot Prompting"(少样本提示)——给一两个示例让模型依葫芦画瓢。Few-shot在GPT-4之后效果似乎已经减弱了,模型本身已经懂了
③"Chain-of-Thought"(CoT,思维链)——让模型把思考过程写出来,对复杂推理任务效果显著,数学题、逻辑题用CoT是真香
④CoT还有两个加强版——"Tree of Thoughts"(ToT,思维树)让模型同时探索多条推理路径,"Self-Consistency"(自一致性)让模型多次作答后投票选出最稳的答案
⑤"ReAct"(Reasoning+Acting,推理+行动)——把推理和行动结合起来,让模型边想边做。这个后文§7还会详聊,是Agent的核心套路
但提示词技术也带来了新的安全风险。"Prompt Injection"(提示词注入)是AI时代的"SQL注入"——攻击者把恶意指令藏在用户输入里,诱导模型执行危险操作。
"Jailbreak"(越狱)则是想方设法让模型说脏话、越红线。最经典的一招是"DAN"(Do Anything Now)——用角色扮演的方式绕过安全限制。完全防住Jailbreak是不可能的,但可以把命中率从80%降到5%以下。
对应的防御手段是"Guardrails"(护栏)和"Safety Filter"(安全过滤)——给AI装上安全门。Guardrails一般不放在模型内部(容易被绕),要放在模型外部的中间件——这是2024年之后行业的共识。
为了让输出更易读、更可控,"Markdown"常被用来规范输出格式。"Structured Output"(结构化输出)/"JSON Mode"则更进一步——强制模型吐出JSON之类的机器可读结果,方便下游程序直接消费。JSON Mode是LLM接入业务系统的必备——没有它,解析模型输出就是一场灾难。
"Stop Sequence"(停止符)告诉模型什么时候闭嘴——避免它说个不停或跳出角色。
整个过程本质上就是围绕用户的"Input/Output"(输入/输出)展开的对话循环:用户输入Prompt,模型输出回答,再根据回答调整下一轮输入。好的Prompt不是一次性的,而是迭出来的——第一版永远不满意,多改几版才能用。
6、上下文、记忆与知识检索
"Context"(上下文)是模型当前的临时记忆体——它包含了对话历史、系统提示以及任何用户提供的参考资料。我自己的比喻:这就像一个人脑的工作记忆,装不下太多东西,一旦超过就会忘掉最早的内容。这个忘掉不是技术缺陷,是设计选择——模型不可能无限记住所有东西。
为了维持长对话的连续性,模型引入了"Memory"(记忆)机制——它把过去的对话精华压缩存档,在需要时再调出来喂给模型。Memory机制的难点不是存,是压——压缩太狠会丢信息,保留太多又占token,这个平衡得靠反复试。
这种记忆思想和后文§7智能体里的长期记忆模块一脉相承,区别只是规模、存储位置和调用方式的差异。但即便如此,模型依然可能知识陈旧或瞎编乱造。
这时候"RAG"(Retrieval-Augmented Generation,检索增强生成)就登场了。RAG的思路很朴素,和开卷考试是同一个意思——先查资料,再回答。模型在生成答案前,会先从外部"Knowledge Base"(知识库)中检索与问题相关的事实,再结合这些真实信息来作答。这一招直接解决了LLM知识陈旧和瞎编乱造两个最大的痛点。
RAG的背后是"Embedding Model"(嵌入模型)和"Vector Database"(向量数据库)的组合拳——前者就是§1提到的Embedding技术的专门化版本,负责把文本变成向量;后者是一个专门存向量、查向量的数据库,能在亿级向量中毫秒级找出最相关的若干条。
RAG还有几个关键步骤:
①"Chunking"(文本分块)——把长文档切成语义完整的小段。切得太细,检索精度高但召回低;切得太粗,召回高但噪音多
②"Hybrid Search"(混合检索)——把关键词检索和语义检索组合使用,比单一方式准很多
③"Re-ranking"(重排序)——对检索结果做二次精选,把最相关的顶到最前面
但RAG也有自己的竞品——前面§4提到的"Long Context"(长上下文)模式。两种路线各有各的命门——RAG适合超大规模知识库和成本敏感的场景;Long Context适合一次丢进去几本书直接问的模式。现实里两种技术经常被组合使用——Long Context处理主问题,RAG处理细枝末节。
在性能优化上,"Cache"(缓存)是节省成本和加速的神器——"Prompt Cache"缓存常用前缀,"KV Cache"缓存推理时的中间结果。KV Cache的存在,让推理速度提升了至少3倍——没有它,ChatGPT那种"一个字一个字往外吐"的体验会非常糟糕。
7、智能体、工具与工程化
如果说普通模型是案头的研究员——你递一份资料,它交一份报告,那"Agent"(智能体)就是外勤的项目经理——接到目标后自己出门调研、协调资源、调用人手、最终把事情办成。这是AI从对话走向行动的关键一步。
Agent在调用工具时有几个关键概念需要厘清:"Skills"(技能)是Agent自己会的本领;"Tools"(工具)是Agent能调用的外部能力;"Functions"(函数)则是更底层的代码函数——三者层层递进。在技术上,调用通过"Tool Calling/Function Calling"实现——模型在需要时举手说"我需要查个天气",系统就去调用相应的工具。工具的JSON Schema写得不好,模型就乱调——这比想象的常见。
工具的形式多种多样:可以是"Plugin"(插件)——给AI装上手和脚;可以是"Web Search"(联网搜索)——让AI实时获取最新信息;还可以是"Code Execution"(代码执行)/"Sandbox"(沙箱)——让Agent安全地写代码并运行。这是Agent工程的生命线——我自己的铁律:生产环境的Agent必须在沙箱里跑。有一次Agent把测试数据库里的数据真的删掉了——还好是在沙箱里跑的。
Agent的能力版图正在快速扩张:"Computer Use"(电脑使用)让Agent能像人一样操作电脑界面(点鼠标、开软件);"Browser Use"/"Web Agent"让Agent能上网冲浪——刷网页、填表单、抓数据;"GUI Agent"则把两者合二为一。OpenAI的Operator、Anthropic的Computer Use都在这个方向。
当任务太复杂时,"Multi-Agent"和"Subagent"上场——多个智能体分工协作,一个负责规划、一个负责执行、一个负责检查。"A2A"(Agent-to-Agent,智能体间通信)则是多智能体之间的社交语言——让不同Agent能互相交流、协同工作。"Workflow"(工作流)是更高一层的流水线编排——把多个步骤、多个工具、多个Agent串成一个自动化流程,专业术语叫"Orchestration"(编排)。
Multi-Agent听起来美好,做起来炸裂——Agent之间的通信调试能让人崩溃。
Agent内部的工作范式有几种典型:
①"Plan-and-Execute"(规划-执行)——先做整体计划再分步执行。往往在目标清晰、路径多变的任务里特别管用
②"Reflection"(反思)/"Self-Critique"(自我批评)——让Agent检查自己的输出并迭代改进
③"Human-in-the-Loop"(人在回路)——在关键决策点保留人类把关。凡是有花钱、发出去、不能撤销的动作,必须有HITL
Agent的开发也有自己的协议栈。"LangChain"是常用的AI开发框架。"MCP"(Model Context Protocol,模型上下文协议)提供了一套标准化的协议,让不同的工具和数据源能说同一种语言——它像AI世界的"USB接口标准"——插上就能用。"Harness engineering"则为Agent提供安全运行的外壳与接管机制——就像给自动驾驶汽车装了安全围栏和人工接管按钮。
Agent不是越智能越好,而是越可控越好。一个会做100件事的Agent,不如一个能稳定做10件事的Agent。
Agent做得好不好,需要"Evals"(评估)/"Agent Evaluation"来衡量——既要看任务完成率,也要看工具调用是否合理、是否符合安全规范。Evals是Agent产品里最被低估、但最关键的一环——没有它,Agent的迭代就是盲人摸象。前面§6提到的"RAG"在Agent场景下也会被反复调用,构成Agent知识获取的基础设施之一。
8、软件工程与开发部署
把AI能力真正变成产品,得走完完整的软件工程链路。
"API"(Application Programming Interface,应用编程接口)及"API Key"是调用AI服务的钥匙——开发者通过API把模型能力嵌入到自己的应用中。"SDK"(Software Development Kit,软件开发工具包)则是更完整的开发套件——它把API+文档+示例代码+工具打包好。
"GitHub"是代码托管的中央仓库——存放代码、协作开发、管理版本。开发者的主战场是"IDE"(Integrated Development Environment,集成开发环境),如VSCode,以及它的AI升级版"Cursor"——就我个人的使用体验来看,Cursor写代码比VSCode+Copilot顺手很多,"Tab补全"的准确度明显高一档。
开发过程通常分为"Frontend"(前端,用户能看到的界面)和"Backend"(后端,背后的逻辑和数据)——前端是门面,后端是内功。"Microservices"(微服务)则是后端架构的乐高积木——把复杂系统拆成独立的小服务。"Monolith"(单体应用)则相反,所有功能塞在一个项目里。AI产品早期推荐Monolith——业务没跑通前,微服务的拆分成本会拖垮团队。
"Docker"/"Container"(容器)是应用打包的行李箱——让代码在哪都能跑,避免在我电脑上能跑的经典悲剧。"Serverless"(无服务器)则是按需请人干活的云开发模式——不用自己管服务器,只管写代码。"DevOps"/"CI/CD"(持续集成/持续部署)则是自动化运维的流水线——让代码一提交就自动测试、自动部署。
开发过程中少不了"Debug"(调试)、"Test"(测试)和处理"Error"(报错)。AI应用尤其关注性能三件套:
①"Latency"(延迟)——首字响应要快。一般来说,首字响应超过1.5秒,用户就开始觉得卡
②"Throughput"(吞吐量)——单位时间能处理多少请求
③"QPS"(Queries Per Second,每秒查询数)
ChatGPT那种打字机效果叫"Streaming"(流式输出),背后依赖"SSE"(Server-Sent Events,服务器推送事件)或"WebSocket"技术——让模型边生成边推送,用户体验立马丝滑。
"Vibe Coding"是近年来兴起的一种编程理念——借助AI进行氛围感或直觉式辅助编程。开发者不再死磕每一行代码,而是把更多精力放在我想做什么上,让AI帮忙把想法变成代码。这不是躺平式编程,而是一种新的分工——人负责想做什么,AI负责怎么做出来。
本地开发离不开"Terminal"(终端)、"Command"(命令)、"Path"(路径)和"Environment Variables"(环境变量),"CLI"(Command Line Interface,命令行界面)则是它们的主要呈现形式。最后,应用开发完成后,还需要"Deployment"(部署)到"Server"(服务器)上,并配置好"Port"(端口)。80端口被占用、443端口要证书、3000端口是前端默认——这些坑每个新人都要踩一遍。
9、业务场景、应用与前沿概念
"AI Application"(AI应用)按受众可分为"To B"(企业级)和"To C"(消费级)。2023-2024是To C爆发(ChatGPT、Midjourney、Cursor都在抢用户),2025开始To B才是真正的钱袋子——企业级客单价高、付费意愿强、护城河深。
"AI Native"(智能原生)指从底层架构上原生为AI设计的应用——从产品定义的第一天起,就把AI当成一等公民。传统软件"AI Native"化的标志是——没有AI,整个产品就跑不起来(不是有了AI体验更好,而是没有AI就根本不存在)。微软的"Copilot"(副驾)命名学把这一理念推到了极致——AI隐身于办公软件、IDE、操作系统之后,像个副驾驶一样随时待命。
"Chatbox"(聊天框)是当下最常见的对话交互界面,它的核心依赖"Chat History"(对话历史)来维持连贯性。Chat History的存储和检索是大部分Chatbot产品的隐形瓶颈——历史太长token爆,历史太短体验割裂。
"RPA"(Robotic Process Automation,机器人流程自动化)是AI之前的自动化前辈——让软件机器人模拟人操作电脑。2024年以后,"AI Agent+RPA"正在融合——Agent负责思考,RPA负责动手,这一块UiPath、Automation Anywhere都在转型。
放眼未来,"AGI"(Artificial General Intelligence,通用人工智能)是AI发展的终极形态——它具备像人类一样的通用学习、推理和适应能力。我自己的判断:AGI不会以某天突然AGI了的形式到来,而是以我们事后看才发现已经是AGI了的形式到来——这和Sam Altman早期的判断一致。再往后,"Singularity"(技术奇点)是科幻概念——AGI自我迭代、智慧爆炸的那个临界点,个人持保留态度。
各国政府也在积极布局"Sovereign AI"(主权AI)/"National AI Strategy"(国家AI战略)——AI已经成为大国博弈的核心战场。我自己的观察:美国、中国、欧盟三条路线完全不同——美国靠企业主导、中国靠政策驱动、欧盟靠法规约束。全球主要玩家包括OpenAI、Anthropic、Google DeepMind、Meta AI、Mistral、DeepSeek(深度求索)、Qwen(通义千问)、Kimi(月之暗面)等。
但通往未来的路上也布满荆棘。"AI Safety"(AI安全)/"AI Alignment"(AI对齐)/"AI Ethics"(AI伦理)构成AI治理的大三元——这三个词在媒体上经常混用,但学术界有清晰区分。"Bias"(偏见)/"Fairness"(公平性)是数据偏差问题的延伸;"XAI"(Explainable AI,可解释AI)致力于让AI的决策说人话——为什么拒贷?为什么推荐这个?都要给出可追溯的理由。金融、医疗、HR这三个领域对XAI的要求最高——监管要求拒绝必须能解释。
"Deepfake"(深度伪造)让眼见不再为实——AI能生成高度逼真的虚假视频和音频。2024年发生过几起知名案例:某公司CFO被deepfake视频骗走了2亿港元——这个案例之后,全球大企业的财务流程都加了一道面对面核实。
"Model Drift"(模型漂移)则提醒我们:模型部署上线后不是一劳永逸的——随着时间推移,外部数据分布会变,模型表现也会逐渐衰退。风控模型可能上线6个月,效果就开始衰减——必须配套"持续训练+监控告警"。
"Synthetic Data"(合成数据)是另一面镜子——用AI造数据再喂AI。短期内缓解数据枯竭是真有用,长期看放大偏见、形成数据回音壁是更大的风险——涉及人脸、医疗、金融的合成数据,一般不推荐。
10、评估、对齐与安全
"Benchmark"(基准测试)是衡量模型能力的标准考试卷——MMLU考综合知识、GSM8K考数学、Human Eval考编程、Super GLUE考语言理解……这些排行榜决定了哪家公司能在下一轮PR中露脸。"Evals"(评估)则是更广泛的概念——既包括学术Benchmark,也包括企业内业务指标。某些厂商专门针对Benchmark调参,在榜上一飞冲天,到真实场景下就拉胯。
"AI Alignment"(AI对齐)研究的核心问题是:如何让AI的目标和人类的目标保持一致?前面§2提到的"RLHF"、"RLAIF"、"Constitutional AI"(宪法式AI)都是这一领域的核心武器——后者让模型按宪法原则自评。除此之外,"Scalable Oversight"(可扩展监督)研究当AI越来越强、人怎么管得住它。
"AI Safety"(AI安全)关注AI失控的极端风险——模型会不会撒谎、会不会觉醒、会不会被滥用?觉醒这种表述太科幻,撒谎和被滥用才是真实的风险。
"Red Teaming"(红队演练)是常见的安全测试方法——专门派人找茬,故意用恶意输入测试模型的防御能力。红队测试要100%自动化才靠谱——人工点能点的样本太有限,Prompt Injection 80+种、Jailbreak 50+种、敏感词200+个,跑完一遍大概4小时。
"Guardrails"(护栏)把安全规则嵌入到产品层面。Guardrails不要放在模型内部(容易被绕),要放在模型外部的中间件——这是2024年之后行业的共识。
"AI Ethics"(AI伦理)则讨论更广的社会议题——算法歧视、就业冲击、信息茧房、AI创作的版权归属……这些问题没有标准答案,需要技术、法律、社会多方共同协商——作为从业者,至少要知道这些话题存在,而不是只看技术不看社会。
附录:AI高频词速查表(按章节分类)

作者:赵搏 投资咨询证号:Z0021236
重要申明:本报告内容及观点仅供学习和参考,不构成任何投资建议。市场有风险,投资需谨慎。

夜雨聆风