AI底层技术逻辑与演变史:知其然,知其所以然,知其所以必然

如果你曾好奇 ChatGPT 为什么会"说话"，或者为什么 AI 突然变得这么聪明——这篇文章会给你一个完整的答案。

为什么你需要了解AI的底层逻辑

2022年11月30日，ChatGPT 发布，五天内用户突破百万。之后的两年里，GPT-4、Claude、DeepSeek、Qwen...模型层出不穷、更新迭代的速度让人应接不暇。

但大多数人只是被动地接受这些信息：模型又升级了、上下文又变长了、API 又降价了。至于它为什么能升级、底层发生了什么变化，鲜少有人深究。

这不是因为底层逻辑不重要，恰恰相反——只有理解底层，你才能真正判断一项技术的能力边界和局限。 你不会相信：一个不懂汽车发动机原理的人说他能修车，同理，你也无法真正用好 AI，如果你不知道它究竟在做什么。

这篇文章的初衷很简单：用最通俗的语言，讲清楚 AI 是怎么从1957年的一个感知机，一步步走到今天的 Agent 时代。 两条主线贯穿始终——底层技术逻辑（技术是怎么工作的）和演变（它为什么走到今天这一步）。

第一部分：底层技术逻辑

一、神经网络基础：从一个"细胞"开始

要理解今天的 AI，必须从它的"祖先"说起。

感知机（Perceptron），1957年由 Frank Rosenblatt 提出，是神经网络的起点。它的原理极其简单：接收多个输入信号，每个信号有一个权重，把它们加起来，如果超过某个阈值，就输出"1"，否则输出"0"。

这就像一个最简陋的决策开关：输入是"今天下雨吗？""是周末吗？""心情好吗？"，权重代表它们的重要程度，加权求和后超过阈值，就决定"出门"。

但感知机很快被发现有个致命缺陷：它只能处理线性可分的问题。什么意思？你没法用一条直线把两类数据分开的情况，它就处理不了。著名的"异或"问题就是这个缺陷的典型案例。

这盆冷水一浇就是二十年。

多层感知机（MLP） 的出现改变了一切。简单说，就是把多个感知机堆叠在一起——第一层的输出作为第二层的输入，以此类推。层数多了，就变成了"深度学习"中的"深度"二字。1986年，反向传播（Backpropagation）算法的提出让训练深层网络成为可能，MLP 才真正派上用场。

从单一感知机到 MLP，这是神经网络第一次"进化"：从只能做简单开关，变成了可以拟合任意复杂函数。理论上，三层 MLP 就能逼近任何连续函数。

接下来，不同类型的网络针对不同任务演化出来：

CNN（卷积神经网络）：擅长处理图像。它的核心思想是"局部感受野"——不一下子看整张图，而是每次只看一小块，然后层层堆叠。这样做的好处是参数少、训练快，自2012年 AlexNet 在 ImageNet 竞赛中大放异彩后，CNN 成为计算机视觉的核心。
RNN（循环神经网络）：擅长处理序列数据，比如文本。它有一个内置的"记忆"机制——每次处理一个词时，会把之前的信息也带进来。但 RNN 有个严重问题：随着序列变长，早期的信息会被"稀释"，梯度消失让训练变得困难。
LSTM（长短期记忆网络） 和 GRU：为了解决 RNN 的长期依赖问题而诞生。它们引入了"门控"机制，让网络自己决定哪些信息该记住、哪些该忘记。这才让机器翻译、文本生成等任务有了质的飞跃。

从感知机 → MLP → CNN → RNN/LSTM，这不是技术的随机漂移，而是一条清晰的演进脉络：如何让机器更好地表示和处理信息。

二、注意力机制：AI的"视觉焦点"

在注意力机制出现之前，RNN 系列（包括 LSTM）处理长文本时有个天然的瓶颈：无论句子多长，它都得把全部信息塞进一个固定大小的"向量"里。这就像让你把一整本书读完后用一句话概括——信息必然大量流失。

注意力机制（Attention） 的核心思想非常符合人类直觉：当你翻译一段话时，你的注意力不会平均分配给每个词，而是会根据上下文动态调整。 翻译"银行"这个词时，如果上下文是"钱"，你会译为 bank；如果是"河流"，你会译为 river。注意力机制正是让模型做同样的事。

具体怎么实现？每个"词"在处理时，都会去计算它与序列中所有其他词的"相关性分数"，然后根据这些分数对信息进行加权求和。相关性高的词多关注，低的少关注。

2014年，Attention 首次被用在机器翻译任务中，效果惊人。但真正把它推向神坛的，是两年后的 Transformer。

三、Transformer架构：AI的"终极乐高"

2017年，Google 团队发表了那篇改变一切的论文——《Attention Is All You Need》。标题已经说明了一切：只要注意力机制就够了，不需要 RNN，不需要 CNN……

Transformer 的核心架构由两部分组成：

1. Encoder（编码器）：负责理解输入。每一层有两个子结构——Multi-Head Attention（多头注意力）和 Feed-Forward Network（前馈神经网络）。多头注意力的"多头"指的是同时运行多个注意力机制，每个"头"关注不同的语义关系（比如一个头关注语法结构，一个头关注语义关联）。

2. Decoder（解码器）：负责生成输出。它的结构与 Encoder 类似，但多了一个"Masked Multi-Head Attention"——生成时只能看到已经生成的内容，不能偷看未来的词。

这就是为什么 Transformer 效果这么好：它用注意力机制直接建立了任意两个词之间的联系，不受距离限制，信息流通无障碍。 而 RNN 必须一步步传递，长距离依赖始终是问题。

更重要的是，Transformer 的架构极其通用——Encoder、Decoder 可以单独使用，也可以组合。BERT 只用 Encoder，GPT 只用 Decoder，而很多翻译模型用的是 Encoder-Decoder 组合。这种"乐高式"的灵活性，为后来的模型演化提供了无限可能。

四、Tokenizer：AI怎么"切词"

你可能没想过一个问题：AI 是怎么"认识"汉字的？

计算机无法直接处理汉字，它只能处理数字。Tokenizer（分词器）的作用，就是把文本转换成数字序列。

最简单的办法是一个字一个码（按字符切分），但效果很差。"机器学习"四个字，如果按字符切，变成"机""器""学""习"四个单元，语义信息丢失严重。

WordPiece 和 BPE（Byte Pair Encoding） 是两种主流的分词策略。它们的共同思路是：不再按固定规则切分，而是让机器从数据中统计出哪些字符组合最常出现，就把它们当作一个"词"。

比如"人工智能"在语料中出现频率很高，WordPiece 就会把它作为一个整体单元，而不是拆成"人工"+"智能"+"智能"。这样既保证了语义完整性，又把词表大小控制在一个合理范围内（通常是几万到几十万）。

这就是为什么同一个词在不同模型里可能被切成不同的片段——分词策略是训练出来的，不是预设的。 这也导致了一个有趣的现象：同一个问题，用不同模型提问，得到的"切词"方式可能完全不同。

五、词向量：让文字变成数字

如果说 Tokenizer 是把文字"切"成单元，那么词向量要解决的是：如何给每个单元赋予一个"数字身体"，让语义相似的词在数字空间里也"住"得近。

One-Hot（独热编码） 是最早的办法：假设你有10万个词，那就用10万维的向量，每个词只有一维是1、其余全是0。"猫"和"狗"的向量正交得不能再正交，完全看不出它们都是动物。

Word2Vec（2013年）带来了突破。它的核心思想是：一个词的意义，由它周围出现的词决定。 "猫"和"狗"经常出现在相似的上下文中（"可爱的____""____是人类的朋友"），所以它们的向量应该相似。Word2Vec 通过"预测邻居词"的任务来训练，意外发现学到的向量可以做加减运算——"King - Man + Woman ≈ Queen"，这在当时是相当惊艳的结果。

但 Word2Vec 也有局限：每个词只有一个向量，不管上下文怎么变。 "银行"在"去银行存钱"和"河边的银行"里明明是两个意思，却共用一个向量。

BERT（2018年）解决了这个问题。BERT 提出"上下文相关"的词向量——同一个词，在不同句子中，向量是不同的。它用的是 Transformer 的 Encoder，通过"完形填空"（Masked Language Model）任务训练：把句子中的一些词盖住，让模型预测盖住的是什么。盖住的位置不同，模型给出的向量就不同。

从 One-Hot → Word2Vec → BERT，词向量经历了从"孤立"到"关联"再到"上下文感知"的演进。这一步，是 AI 真正理解语言语义的关键跃迁。

六、预训练与微调：AI的"通识教育"与"专业培训"

今天的 AI 模型是怎么"学会"知识的？答案就在这两个阶段：预训练（Pretraining） 和 微调（Fine-tuning）。

预训练就像大学的通识教育。模型在海量文本数据上进行无监督学习——通常是"预测下一个词"这个任务（GPT 系列）或"完形填空"（BERT 系列）。这个阶段不需要人工标注数据，互联网上的所有文字都是教材。模型通过几百亿甚至几千亿个参数的调整，学会了对语言的全面理解：语法、逻辑、常识、知识。

微调则是针对具体任务的职业培训。预训练后的模型已经有了"语言能力"，但不知道怎么"听指令"。微调的做法是：准备一些标注好的问答对或者指令-响应数据，让模型学习在这些特定场景下应该如何回答。

这个范式的力量在于：预训练阶段一次性投入巨大，但训练好的模型可以服务于无数不同的下游任务。 就像一个人接受了良好的基础教育后，再学习任何专业技能都会快很多。

从 2018 年的 BERT、GPT 开始，"预训练+微调"成为 NLP 领域的标准范式，延续至今。

七、RLHF与DPO：让AI更"懂"人的意图

预训练让模型"会说话"，微调让模型"听指令"，但还有一个问题：怎么让模型生成的回答更符合人类的偏好？

传统的微调靠人工标注数据，但人工标注成本高、速度慢，而且很难覆盖所有"什么是好的回答"的场景。

RLHF（Reinforcement Learning from Human Feedback，从人类反馈中学习强化学习） 解决了这个问题。它的流程是：

让模型对同一个问题生成多个回答
人类（或另一个 AI）对这些回答进行排序
用这些排序数据训练一个"奖励模型"（Reward Model），让它学会判断什么样的回答是好的
用强化学习算法（比如 PPO）优化主模型，让它生成的回答能获得更高的奖励

这就是 2022 年 InstructGPT 和 ChatGPT 背后的核心技术。它让 AI 不再仅仅模仿语言，而是开始学习"什么是人类认为好的语言"。

DPO（Direct Preference Optimization，直接偏好优化） 是 2023 年提出的更简洁的方法。它绕过了奖励模型和强化学习，直接用人类偏好的排序数据来优化模型。效果相当，训练却更简单，已成为主流的"对齐"技术之一。

从预训练 → SFT（有监督微调） → RLHF/DPO，模型越来越"乖"、越来越符合人类期望。这个过程，有个专业的说法叫**"对齐"（Alignment）**——让 AI 的行为与人类意图对齐。

第二部分：技术范式演变

一、NLP 领域的三次范式转移

回顾 NLP（自然语言处理）领域的发展，经历了三次根本性的范式转移：

第一阶段：统计NLP（1990s-2010s）

这个阶段的核心方法是统计规律。翻译就是找对齐概率，分类就是数词频，命名实体识别就是用隐马尔可夫模型找状态转移规律。优点是可解释，缺点是需要大量人工设计的特征——你得告诉模型什么是"主语"、什么是"宾语"，累且效果一般。

第二阶段：深度学习NLP（2012-2017）

2012年 AlexNet 之后，深度学习开始席卷计算机视觉，随后 NLP 也被攻占。Word2Vec、LSTM、CNN for NLP、Seq2Seq...这个阶段的核心变化是特征表示从人工设计变成了自动学习。模型端到端地从原始数据中学习表示，省去了大量人工特征工程。

第三阶段：预训练大模型（2018-至今）

从 BERT 和 GPT 开始，"预训练+微调"范式一统天下。模型从海量无标注数据中学习通用知识，然后快速迁移到下游任务。这不仅是技术的升级，更是商业模式和研发范式的彻底改变——训练一次、部署多次，边际成本骤降。

第四阶段：Agent（2024-）

大模型具备了理解复杂指令、调用工具、多步推理的能力后，AI 不再只是回答问题，而是可以自主规划、执行复杂任务。这就是 Agent 时代，我们稍后会展开讲。

二、商业模式的三次转移

技术范式的变化，必然带来商业模式的重构。

闭源API时代：OpenAI 通过 API 提供 GPT 能力，按调用量收费。这是云计算思路的延伸——模型是"黑盒"，用户只能调用、无法修改。

开源模型时代：Meta 发布 LLaMA、阿里发布 Qwen、国内 DeepSeek 等开源模型崛起。企业可以在自己的服务器上部署、可以基于开源模型做二次训练。从"租借能力"变成了"拥有资产"。

垂直定制时代：当基础模型能力足够强后，真正的竞争转向垂直领域的深度定制——医疗专用模型、法律专用模型、金融专用模型...结合私有数据和行业Know-how，构建差异化壁垒。

三、从单模态到多模态

早期的 AI 只能处理文本（NLP），后来的 CNN 处理图像（CV），两者井水不犯河水。

Transformer 改变了一切。因为它的架构足够通用，文本可以转成向量，图像也可以。ViT（Vision Transformer） 把图像切成 patch 当作"词"来处理，效果完全不输 CNN。

2023 年之后，多模态模型全面爆发：GPT-4V 能看懂图片，Sora 能生成视频，Claude 能分析截图。AI 的感知器官从"眼睛"扩展到了"耳朵、眼睛、手"，这是从语言模型向世界模型的又一次跃迁。

第三部分：关键论文时间线

年份	论文	意义
2017	Transformer 《Attention Is All You Need》	提出 Transformer 架构，奠定当代 AI 的基础架构
2018	BERT 《Pre-training of Deep Bidirectional Transformers》	开启"预训练+微调"范式，上下文词向量成为主流
2018	GPT-1 《Improving Language Understanding by Generative Pre-Training》	GPT 路线（只用了 Decoder）的起点
2020	GPT-3 《Language Models are Few-Shot Learners》	展示"涌现能力"，few-shot prompting 震惊业界
2022	InstructGPT 《Training language models to follow instructions》	引入 RLHF，让模型真正"听人话"
2022	Chain-of-Thought 《Chain-of-Thought Prompting Elicits Reasoning》	CoT 提示让大模型做复杂推理成为可能
2023	DPO 《Direct Preference Optimization》	简化的对齐训练方法，效果比肩 RLHF

结尾：Agent 时代意味着什么

回到本文开头的问题：为什么你需要了解 AI 的底层技术逻辑？

因为技术还在加速演化。当你理解了感知机怎么变成 Transformer、统计方法怎么被深度学习取代、闭源怎么走向开源——你就不再是信息的被动接收者，而是能够判断趋势、理解边界的参与者。

2024 年，Agent（智能体）成为行业关键词。GPT-4 学会调用工具、Claude 能操作浏览器、OpenAI 推出 o1 推理模型、DeepSeek 发布 R1...这些变化的底层逻辑其实是一致的：AI 不仅要"理解"，还要"行动"。

从"回答问题"到"完成任务"，从"被调用"到"主动规划"，这可能是 AI 发展史上最深刻的一次范式转移。它带来的变化，不会只是"多了一个聊天工具"这么简单。

理解底层技术逻辑，不是为了成为技术专家，而是为了在这个快速变化的世界里，保持独立的判断力和参与能力。

本文为技术解读性质，旨在帮助读者建立对 AI 底层逻辑的系统认知。文中涉及的技术细节已做适度简化处理，如需进一步深入，建议阅读文中提及的原始论文。

📢 关于我们

本文由**「老易在」小龙虾团队——老易与四虾居**辅助创作而成。

如果你对 AI话题感兴趣，欢迎关注我们，一起探索"养小龙虾"的乐趣！

"老易与四虾居"的四名成员：司理、采微、染翰、丹青