
你把空调设到 26 度。房间热了,空调多吹一点;凉了,空调少吹一点。
大模型训练也有点像这件事。它先看自己答得离目标差多少,再调参数,让下次少错一点。
这篇只讲一个问题:为什么说控制论是 AI 的老底子?
先抓一个动作
控制论这个词听起来很硬。先别管名字,先看一个动作:
看见差距,用差距修正自己,再看见新的差距。
这就是反馈。
如果修正的方向是“把差距变小”,就叫负反馈。负反馈不是消极反馈,而是纠偏反馈。空调、热水器、汽车巡航、工厂里的自动控制,都靠这套逻辑。

比如恒温器:
设定温度是目标。当前温度是实际状态。两者的差,就是误差。恒温器根据误差决定加热还是停下。
这件事看起来普通,但很深。因为很多“像有目的”的行为,都可以拆成这样的循环。机器稳住速度,身体稳住体温,系统稳住秩序,本质上都在反复纠偏。
控制论要做的事,就是把这些看似不同的系统,放到同一套语言里看。
这个名字从哪里来
控制论的英文是 cybernetics,词根来自希腊语里的“掌舵人”。
掌舵人做什么?看船头偏了,就扳一下舵;偏到另一边,再修回来。它不是一次算好全部路线,而是一路观察,一路修正。
反馈思想比“控制论”这个名字早得多。
18 世纪的蒸汽机调速器,已经会用机械办法自动稳住转速。19 世纪,Maxwell 把调速器写成方程,开始分析它什么时候稳定,什么时候会震荡。生理学里,Cannon 用“稳态”解释身体如何维持体温、血糖和血压。
这些线索在 20 世纪中期汇到一起。Norbert Wiener 在二战中的防空预测问题里,看到了同一个骨架:系统不断比较目标和实际,再用误差修正动作。
1948 年,Wiener 出版《Cybernetics》。副标题很直接:生物体和机器中的控制与通信。
这本书的野心很大。它想用反馈、控制、信息这套语言,同时理解机器、生理系统、大脑和社会。
AI 继承了哪一块
今天讲 AI,常见两个词:梯度下降和强化学习。
先说梯度下降。
梯度下降是训练神经网络的常用办法。神经网络先给出一个答案,系统计算这个答案离目标差多少。这个差距叫损失。然后算法判断每个参数该往哪个方向调,损失会更小。调一步,再算一次,再调一步。
这就是反馈回路。
目标答案对应设定温度。模型当前输出对应当前温度。损失对应误差。优化器对应控制器。参数更新对应调节动作。

再说强化学习。
强化学习可以理解成“边试边改”。一个智能体在环境里做动作,环境给它奖励或惩罚。它根据反馈调整策略,让以后更容易拿到好结果。
这和控制论里的最优控制关系很近。最优控制研究的是:给一个会变化的系统,怎样选动作,才能让结果最好。强化学习把这套问题搬进了 AI,只是很多时候不要求人先写出完整的环境方程,而是让系统自己试出来。
所以,AI 的确继承了控制论最核心的动作:
看见差距,修正自己,再进入下一轮。
为什么今天才爆
如果骨架早就有了,为什么 1950 年代没有长出今天的大模型?
差两件事。
第一是燃料。
早期控制论有想法,但算力少,数据少,反馈循环跑得慢。今天的 AI 有 GPU、大规模数据、互联网留下的文本和图像,还有能自动计算参数该怎么改的反向传播算法。
同样是“反复修正”,过去像手摇磨豆机,今天像自动化工厂。
第二是表征学习。
表征学习的意思是:系统不只调一个已经定义好的量,还能自己学出“该看什么特征”。
恒温器只需要温度。蒸汽机调速器只需要转速。这些量是工程师先定义好的。
但 AI 看一张图片、读一段话、回答一个问题时,很多关键特征不是人提前写死的。神经网络会从数据里慢慢学出中间层表示。比如边缘、形状、语气、关系、上下文,都可能变成模型内部的表示。

这一步很关键。
控制论给了“反馈纠偏”的骨架。现代 AI 又加上了海量算力、海量数据和表征学习。两者合在一起,才有今天的大模型。
它也继承了老问题
反馈系统有一个硬限制:它必须有目标。
空调的目标温度是谁设的?人设的。
大模型训练里的损失函数是谁写的?人写的。
智能体要追求的奖励是谁定义的?还是人定义的。
这就带来 AI 对齐问题。对齐,简单说,就是让 AI 真正优化人想要的东西,而不是只优化一个写在公式里的替代指标。
如果目标写得不准,系统会很认真地跑偏。
比如你让一个学生“分数越高越好”,但没有说必须诚实答题。坏学生可能会去抄答案。问题不在于他不会优化,恰恰在于他太会优化你给的指标。
AI 也会遇到类似问题。它会沿着奖励信号找捷径。奖励写歪了,捷径也会歪。

所以,控制论留下的不只是力量,也留下了天花板。
反馈能让系统越来越接近目标。但反馈自己不能决定目标是不是好目标。
怎么判断一句话
以后再看到一个 AI 系统,可以先问三件事:
第一,它在感知什么差距?
第二,它用什么信号修正自己?
第三,这个目标是谁写下来的?
能回答这三问,就抓住了它的控制论骨架。
所以,“控制论是 AI 的上辈子”这个说法,作为比喻是有用的。但更准确地说,控制论没有真正死掉。它的名字淡了,思想被拆进了控制工程、信息论、认知科学和 AI。
下一次你看到 loss 曲线往下走,看到智能体根据奖励改策略,背后跑的还是那件老事:
看见差距,用差距修正自己。
夜雨聆风