控制论是AI的上辈子吗

你把空调设到 26 度。房间热了，空调多吹一点；凉了，空调少吹一点。

大模型训练也有点像这件事。它先看自己答得离目标差多少，再调参数，让下次少错一点。

这篇只讲一个问题：为什么说控制论是 AI 的老底子？

先抓一个动作

控制论这个词听起来很硬。先别管名字，先看一个动作：

看见差距，用差距修正自己，再看见新的差距。

这就是反馈。

如果修正的方向是“把差距变小”，就叫负反馈。负反馈不是消极反馈，而是纠偏反馈。空调、热水器、汽车巡航、工厂里的自动控制，都靠这套逻辑。

比如恒温器：

设定温度是目标。当前温度是实际状态。两者的差，就是误差。恒温器根据误差决定加热还是停下。

这件事看起来普通，但很深。因为很多“像有目的”的行为，都可以拆成这样的循环。机器稳住速度，身体稳住体温，系统稳住秩序，本质上都在反复纠偏。

控制论要做的事，就是把这些看似不同的系统，放到同一套语言里看。

这个名字从哪里来

控制论的英文是 cybernetics，词根来自希腊语里的“掌舵人”。

掌舵人做什么？看船头偏了，就扳一下舵；偏到另一边，再修回来。它不是一次算好全部路线，而是一路观察，一路修正。

反馈思想比“控制论”这个名字早得多。

18 世纪的蒸汽机调速器，已经会用机械办法自动稳住转速。19 世纪，Maxwell 把调速器写成方程，开始分析它什么时候稳定，什么时候会震荡。生理学里，Cannon 用“稳态”解释身体如何维持体温、血糖和血压。

这些线索在 20 世纪中期汇到一起。Norbert Wiener 在二战中的防空预测问题里，看到了同一个骨架：系统不断比较目标和实际，再用误差修正动作。

1948 年，Wiener 出版《Cybernetics》。副标题很直接：生物体和机器中的控制与通信。

这本书的野心很大。它想用反馈、控制、信息这套语言，同时理解机器、生理系统、大脑和社会。

AI 继承了哪一块

今天讲 AI，常见两个词：梯度下降和强化学习。

先说梯度下降。

梯度下降是训练神经网络的常用办法。神经网络先给出一个答案，系统计算这个答案离目标差多少。这个差距叫损失。然后算法判断每个参数该往哪个方向调，损失会更小。调一步，再算一次，再调一步。

这就是反馈回路。

目标答案对应设定温度。模型当前输出对应当前温度。损失对应误差。优化器对应控制器。参数更新对应调节动作。

再说强化学习。

强化学习可以理解成“边试边改”。一个智能体在环境里做动作，环境给它奖励或惩罚。它根据反馈调整策略，让以后更容易拿到好结果。

这和控制论里的最优控制关系很近。最优控制研究的是：给一个会变化的系统，怎样选动作，才能让结果最好。强化学习把这套问题搬进了 AI，只是很多时候不要求人先写出完整的环境方程，而是让系统自己试出来。

所以，AI 的确继承了控制论最核心的动作：

看见差距，修正自己，再进入下一轮。

为什么今天才爆

如果骨架早就有了，为什么 1950 年代没有长出今天的大模型？

差两件事。

第一是燃料。

早期控制论有想法，但算力少，数据少，反馈循环跑得慢。今天的 AI 有 GPU、大规模数据、互联网留下的文本和图像，还有能自动计算参数该怎么改的反向传播算法。

同样是“反复修正”，过去像手摇磨豆机，今天像自动化工厂。

第二是表征学习。

表征学习的意思是：系统不只调一个已经定义好的量，还能自己学出“该看什么特征”。

恒温器只需要温度。蒸汽机调速器只需要转速。这些量是工程师先定义好的。

但 AI 看一张图片、读一段话、回答一个问题时，很多关键特征不是人提前写死的。神经网络会从数据里慢慢学出中间层表示。比如边缘、形状、语气、关系、上下文，都可能变成模型内部的表示。

这一步很关键。

控制论给了“反馈纠偏”的骨架。现代 AI 又加上了海量算力、海量数据和表征学习。两者合在一起，才有今天的大模型。

它也继承了老问题

反馈系统有一个硬限制：它必须有目标。

空调的目标温度是谁设的？人设的。

大模型训练里的损失函数是谁写的？人写的。

智能体要追求的奖励是谁定义的？还是人定义的。

这就带来 AI 对齐问题。对齐，简单说，就是让 AI 真正优化人想要的东西，而不是只优化一个写在公式里的替代指标。

如果目标写得不准，系统会很认真地跑偏。

比如你让一个学生“分数越高越好”，但没有说必须诚实答题。坏学生可能会去抄答案。问题不在于他不会优化，恰恰在于他太会优化你给的指标。

AI 也会遇到类似问题。它会沿着奖励信号找捷径。奖励写歪了，捷径也会歪。

所以，控制论留下的不只是力量，也留下了天花板。

反馈能让系统越来越接近目标。但反馈自己不能决定目标是不是好目标。

怎么判断一句话

以后再看到一个 AI 系统，可以先问三件事：

第一，它在感知什么差距？

第二，它用什么信号修正自己？

第三，这个目标是谁写下来的？

能回答这三问，就抓住了它的控制论骨架。

所以，“控制论是 AI 的上辈子”这个说法，作为比喻是有用的。但更准确地说，控制论没有真正死掉。它的名字淡了，思想被拆进了控制工程、信息论、认知科学和 AI。

下一次你看到 loss 曲线往下走，看到智能体根据奖励改策略，背后跑的还是那件老事：

看见差距，用差距修正自己。