如果你曾好奇 ChatGPT 为什么会"说话",或者为什么 AI 突然变得这么聪明——这篇文章会给你一个完整的答案。
为什么你需要了解AI的底层逻辑
2022年11月30日,ChatGPT 发布,五天内用户突破百万。之后的两年里,GPT-4、Claude、DeepSeek、Qwen...模型层出不穷、更新迭代的速度让人应接不暇。
但大多数人只是被动地接受这些信息:模型又升级了、上下文又变长了、API 又降价了。至于它为什么能升级、底层发生了什么变化,鲜少有人深究。
这不是因为底层逻辑不重要,恰恰相反——只有理解底层,你才能真正判断一项技术的能力边界和局限。 你不会相信:一个不懂汽车发动机原理的人说他能修车,同理,你也无法真正用好 AI,如果你不知道它究竟在做什么。
这篇文章的初衷很简单:用最通俗的语言,讲清楚 AI 是怎么从1957年的一个感知机,一步步走到今天的 Agent 时代。 两条主线贯穿始终——底层技术逻辑(技术是怎么工作的)和演变(它为什么走到今天这一步)。
第一部分:底层技术逻辑
一、神经网络基础:从一个"细胞"开始
要理解今天的 AI,必须从它的"祖先"说起。
感知机(Perceptron),1957年由 Frank Rosenblatt 提出,是神经网络的起点。它的原理极其简单:接收多个输入信号,每个信号有一个权重,把它们加起来,如果超过某个阈值,就输出"1",否则输出"0"。
这就像一个最简陋的决策开关:输入是"今天下雨吗?""是周末吗?""心情好吗?",权重代表它们的重要程度,加权求和后超过阈值,就决定"出门"。
但感知机很快被发现有个致命缺陷:它只能处理线性可分的问题。什么意思?你没法用一条直线把两类数据分开的情况,它就处理不了。著名的"异或"问题就是这个缺陷的典型案例。
这盆冷水一浇就是二十年。
多层感知机(MLP) 的出现改变了一切。简单说,就是把多个感知机堆叠在一起——第一层的输出作为第二层的输入,以此类推。层数多了,就变成了"深度学习"中的"深度"二字。1986年,反向传播(Backpropagation)算法的提出让训练深层网络成为可能,MLP 才真正派上用场。
从单一感知机到 MLP,这是神经网络第一次"进化":从只能做简单开关,变成了可以拟合任意复杂函数。理论上,三层 MLP 就能逼近任何连续函数。
接下来,不同类型的网络针对不同任务演化出来:
CNN(卷积神经网络):擅长处理图像。它的核心思想是"局部感受野"——不一下子看整张图,而是每次只看一小块,然后层层堆叠。这样做的好处是参数少、训练快,自2012年 AlexNet 在 ImageNet 竞赛中大放异彩后,CNN 成为计算机视觉的核心。 RNN(循环神经网络):擅长处理序列数据,比如文本。 它有一个内置的"记忆"机制——每次处理一个词时,会把之前的信息也带进来。但 RNN 有个严重问题:随着序列变长,早期的信息会被"稀释",梯度消失让训练变得困难。 LSTM(长短期记忆网络) 和 GRU:为了解决 RNN 的长期依赖问题而诞生。它们引入了"门控"机制,让网络自己决定哪些信息该记住、哪些该忘记。这才让机器翻译、文本生成等任务有了质的飞跃。
从感知机 → MLP → CNN → RNN/LSTM,这不是技术的随机漂移,而是一条清晰的演进脉络:如何让机器更好地表示和处理信息。
二、注意力机制:AI的"视觉焦点"
在注意力机制出现之前,RNN 系列(包括 LSTM)处理长文本时有个天然的瓶颈:无论句子多长,它都得把全部信息塞进一个固定大小的"向量"里。这就像让你把一整本书读完后用一句话概括——信息必然大量流失。
注意力机制(Attention) 的核心思想非常符合人类直觉:当你翻译一段话时,你的注意力不会平均分配给每个词,而是会根据上下文动态调整。 翻译"银行"这个词时,如果上下文是"钱",你会译为 bank;如果是"河流",你会译为 river。注意力机制正是让模型做同样的事。
具体怎么实现?每个"词"在处理时,都会去计算它与序列中所有其他词的"相关性分数",然后根据这些分数对信息进行加权求和。相关性高的词多关注,低的少关注。
2014年,Attention 首次被用在机器翻译任务中,效果惊人。但真正把它推向神坛的,是两年后的 Transformer。
三、Transformer架构:AI的"终极乐高"
2017年,Google 团队发表了那篇改变一切的论文——《Attention Is All You Need》。标题已经说明了一切:只要注意力机制就够了,不需要 RNN,不需要 CNN……
Transformer 的核心架构由两部分组成:
1. Encoder(编码器):负责理解输入。每一层有两个子结构——Multi-Head Attention(多头注意力)和 Feed-Forward Network(前馈神经网络)。多头注意力的"多头"指的是同时运行多个注意力机制,每个"头"关注不同的语义关系(比如一个头关注语法结构,一个头关注语义关联)。
2. Decoder(解码器):负责生成输出。它的结构与 Encoder 类似,但多了一个"Masked Multi-Head Attention"——生成时只能看到已经生成的内容,不能偷看未来的词。
这就是为什么 Transformer 效果这么好:它用注意力机制直接建立了任意两个词之间的联系,不受距离限制,信息流通无障碍。 而 RNN 必须一步步传递,长距离依赖始终是问题。
更重要的是,Transformer 的架构极其通用——Encoder、Decoder 可以单独使用,也可以组合。BERT 只用 Encoder,GPT 只用 Decoder,而很多翻译模型用的是 Encoder-Decoder 组合。这种"乐高式"的灵活性,为后来的模型演化提供了无限可能。
四、Tokenizer:AI怎么"切词"
你可能没想过一个问题:AI 是怎么"认识"汉字的?
计算机无法直接处理汉字,它只能处理数字。Tokenizer(分词器)的作用,就是把文本转换成数字序列。
最简单的办法是一个字一个码(按字符切分),但效果很差。"机器学习"四个字,如果按字符切,变成"机""器""学""习"四个单元,语义信息丢失严重。
WordPiece 和 BPE(Byte Pair Encoding) 是两种主流的分词策略。它们的共同思路是:不再按固定规则切分,而是让机器从数据中统计出哪些字符组合最常出现,就把它们当作一个"词"。
比如"人工智能"在语料中出现频率很高,WordPiece 就会把它作为一个整体单元,而不是拆成"人工"+"智能"+"智能"。这样既保证了语义完整性,又把词表大小控制在一个合理范围内(通常是几万到几十万)。
这就是为什么同一个词在不同模型里可能被切成不同的片段——分词策略是训练出来的,不是预设的。 这也导致了一个有趣的现象:同一个问题,用不同模型提问,得到的"切词"方式可能完全不同。
五、词向量:让文字变成数字
如果说 Tokenizer 是把文字"切"成单元,那么词向量要解决的是:如何给每个单元赋予一个"数字身体",让语义相似的词在数字空间里也"住"得近。
One-Hot(独热编码) 是最早的办法:假设你有10万个词,那就用10万维的向量,每个词只有一维是1、其余全是0。"猫"和"狗"的向量正交得不能再正交,完全看不出它们都是动物。
Word2Vec(2013年)带来了突破。它的核心思想是:一个词的意义,由它周围出现的词决定。 "猫"和"狗"经常出现在相似的上下文中("可爱的____""____是人类的朋友"),所以它们的向量应该相似。Word2Vec 通过"预测邻居词"的任务来训练,意外发现学到的向量可以做加减运算——"King - Man + Woman ≈ Queen",这在当时是相当惊艳的结果。
但 Word2Vec 也有局限:每个词只有一个向量,不管上下文怎么变。 "银行"在"去银行存钱"和"河边的银行"里明明是两个意思,却共用一个向量。
BERT(2018年)解决了这个问题。BERT 提出"上下文相关"的词向量——同一个词,在不同句子中,向量是不同的。它用的是 Transformer 的 Encoder,通过"完形填空"(Masked Language Model)任务训练:把句子中的一些词盖住,让模型预测盖住的是什么。盖住的位置不同,模型给出的向量就不同。
从 One-Hot → Word2Vec → BERT,词向量经历了从"孤立"到"关联"再到"上下文感知"的演进。这一步,是 AI 真正理解语言语义的关键跃迁。
六、预训练与微调:AI的"通识教育"与"专业培训"
今天的 AI 模型是怎么"学会"知识的?答案就在这两个阶段:预训练(Pretraining) 和 微调(Fine-tuning)。
预训练就像大学的通识教育。模型在海量文本数据上进行无监督学习——通常是"预测下一个词"这个任务(GPT 系列)或"完形填空"(BERT 系列)。这个阶段不需要人工标注数据,互联网上的所有文字都是教材。模型通过几百亿甚至几千亿个参数的调整,学会了对语言的全面理解:语法、逻辑、常识、知识。
微调则是针对具体任务的职业培训。预训练后的模型已经有了"语言能力",但不知道怎么"听指令"。微调的做法是:准备一些标注好的问答对或者指令-响应数据,让模型学习在这些特定场景下应该如何回答。
这个范式的力量在于:预训练阶段一次性投入巨大,但训练好的模型可以服务于无数不同的下游任务。 就像一个人接受了良好的基础教育后,再学习任何专业技能都会快很多。
从 2018 年的 BERT、GPT 开始,"预训练+微调"成为 NLP 领域的标准范式,延续至今。
七、RLHF与DPO:让AI更"懂"人的意图
预训练让模型"会说话",微调让模型"听指令",但还有一个问题:怎么让模型生成的回答更符合人类的偏好?
传统的微调靠人工标注数据,但人工标注成本高、速度慢,而且很难覆盖所有"什么是好的回答"的场景。
RLHF(Reinforcement Learning from Human Feedback,从人类反馈中学习强化学习) 解决了这个问题。它的流程是:
让模型对同一个问题生成多个回答 人类(或另一个 AI)对这些回答进行排序 用这些排序数据训练一个"奖励模型"(Reward Model),让它学会判断什么样的回答是好的 用强化学习算法(比如 PPO)优化主模型,让它生成的回答能获得更高的奖励
这就是 2022 年 InstructGPT 和 ChatGPT 背后的核心技术。它让 AI 不再仅仅模仿语言,而是开始学习"什么是人类认为好的语言"。
DPO(Direct Preference Optimization,直接偏好优化) 是 2023 年提出的更简洁的方法。它绕过了奖励模型和强化学习,直接用人类偏好的排序数据来优化模型。效果相当,训练却更简单,已成为主流的"对齐"技术之一。
从预训练 → SFT(有监督微调) → RLHF/DPO,模型越来越"乖"、越来越符合人类期望。这个过程,有个专业的说法叫**"对齐"(Alignment)**——让 AI 的行为与人类意图对齐。
第二部分:技术范式演变
一、NLP 领域的三次范式转移
回顾 NLP(自然语言处理)领域的发展,经历了三次根本性的范式转移:
第一阶段:统计NLP(1990s-2010s)
这个阶段的核心方法是统计规律。翻译就是找对齐概率,分类就是数词频,命名实体识别就是用隐马尔可夫模型找状态转移规律。优点是可解释,缺点是需要大量人工设计的特征——你得告诉模型什么是"主语"、什么是"宾语",累且效果一般。
第二阶段:深度学习NLP(2012-2017)
2012年 AlexNet 之后,深度学习开始席卷计算机视觉,随后 NLP 也被攻占。Word2Vec、LSTM、CNN for NLP、Seq2Seq...这个阶段的核心变化是特征表示从人工设计变成了自动学习。模型端到端地从原始数据中学习表示,省去了大量人工特征工程。
第三阶段:预训练大模型(2018-至今)
从 BERT 和 GPT 开始,"预训练+微调"范式一统天下。模型从海量无标注数据中学习通用知识,然后快速迁移到下游任务。这不仅是技术的升级,更是商业模式和研发范式的彻底改变——训练一次、部署多次,边际成本骤降。
第四阶段:Agent(2024-)
大模型具备了理解复杂指令、调用工具、多步推理的能力后,AI 不再只是回答问题,而是可以自主规划、执行复杂任务。这就是 Agent 时代,我们稍后会展开讲。
二、商业模式的三次转移
技术范式的变化,必然带来商业模式的重构。
闭源API时代:OpenAI 通过 API 提供 GPT 能力,按调用量收费。这是云计算思路的延伸——模型是"黑盒",用户只能调用、无法修改。
开源模型时代:Meta 发布 LLaMA、阿里发布 Qwen、国内 DeepSeek 等开源模型崛起。企业可以在自己的服务器上部署、可以基于开源模型做二次训练。从"租借能力"变成了"拥有资产"。
垂直定制时代:当基础模型能力足够强后,真正的竞争转向垂直领域的深度定制——医疗专用模型、法律专用模型、金融专用模型...结合私有数据和行业Know-how,构建差异化壁垒。
三、从单模态到多模态
早期的 AI 只能处理文本(NLP),后来的 CNN 处理图像(CV),两者井水不犯河水。
Transformer 改变了一切。因为它的架构足够通用,文本可以转成向量,图像也可以。ViT(Vision Transformer) 把图像切成 patch 当作"词"来处理,效果完全不输 CNN。
2023 年之后,多模态模型全面爆发:GPT-4V 能看懂图片,Sora 能生成视频,Claude 能分析截图。AI 的感知器官从"眼睛"扩展到了"耳朵、眼睛、手",这是从语言模型向世界模型的又一次跃迁。
第三部分:关键论文时间线
| Transformer | ||
| BERT | ||
| GPT-1 | ||
| GPT-3 | ||
| InstructGPT | ||
| Chain-of-Thought | ||
| DPO |
结尾:Agent 时代意味着什么
回到本文开头的问题:为什么你需要了解 AI 的底层技术逻辑?
因为技术还在加速演化。当你理解了感知机怎么变成 Transformer、统计方法怎么被深度学习取代、闭源怎么走向开源——你就不再是信息的被动接收者,而是能够判断趋势、理解边界的参与者。
2024 年,Agent(智能体)成为行业关键词。GPT-4 学会调用工具、Claude 能操作浏览器、OpenAI 推出 o1 推理模型、DeepSeek 发布 R1...这些变化的底层逻辑其实是一致的:AI 不仅要"理解",还要"行动"。
从"回答问题"到"完成任务",从"被调用"到"主动规划",这可能是 AI 发展史上最深刻的一次范式转移。它带来的变化,不会只是"多了一个聊天工具"这么简单。
理解底层技术逻辑,不是为了成为技术专家,而是为了在这个快速变化的世界里,保持独立的判断力和参与能力。
本文为技术解读性质,旨在帮助读者建立对 AI 底层逻辑的系统认知。文中涉及的技术细节已做适度简化处理,如需进一步深入,建议阅读文中提及的原始论文。
📢 关于我们
本文由**「老易在」小龙虾团队——老易与四虾居**辅助创作而成。
如果你对 AI话题感兴趣,欢迎关注我们,一起探索"养小龙虾"的乐趣!
"老易与四虾居"的四名成员:司理、采微、染翰、丹青
夜雨聆风