乐于分享
好东西不私藏

复杂系统问题面前AI的优势:从数据驱动到分层架构

复杂系统问题面前AI的优势:从数据驱动到分层架构

1969 年,阿波罗 11 号的控制舱内布满了数百个物理开关、压力表和断路器。飞行员必须实时掌握每一个阀门的状态,因为每一个数据的背后都是一条确定的物理边界。2020 年,SpaceX 的龙飞船只剩下了三块简洁的触摸屏。大众对此的感知是:系统变简单了。但工程界深知,界面的简洁并不代表复杂度的消失,而是复杂度的“内沉”
2026年,具身智能(Embodied AI)正式从“实验室原型”迈向了“大规模商业量产”的元年。然而,现在的 AI 狂热分子似乎正在试图跳过对于控制系统的任何关注,直接把仪表盘扔进垃圾桶,并宣称:“我们不需要知道物理规律,AI 只要见过足够多的数据,它就能学会 Fly to the moon。”
面对高度复杂的现实系统,传统控制理论与人工智能正经历着深度的演进与融合。面对每一天铺天盖地技术革新的热搜词条,趁五一假期空闲,我希望可以对这一技术演进脉络进行一些梳理,并谈谈自己一些浅薄的思考。
一、 控制的艺术:经典与现代控制理论的数学保证
由霍尼韦尔首席科学家Dr. Gunter Stein在世纪所讲演的著名的讲座-Respect the Unstable,几乎可以代表所有经典与现代控制理论的核心思想–控制物理系统必须遵循“敬畏不稳定”的原则,任何控制的工程实现都必须建立在扎实的底层理论与对于现实物理系统的精准理解之上。
回顾传统控制理论,其通过严密的数学推导,为系统稳定运行提供了不可或缺的基石
经典控制理论主要针对单输入单输出(SISO)系统,利用拉普拉斯变换和传递函数来描述系统输入与输出信号(冲激响应)之间的关系。相关理论应用从二战时期的火炮伺服跟踪系统到常规的直流电机调速,发展过程中以 Ziegler-Nichols Tuning 法则为代表的各类 PID控制大放异彩,甚至延续至早期的无人机和3D打印机控制中

transfer function for SISO systems

WWII Servomechanisms

现代控制理论为了应对多输入多输出(MIMO)的复杂系统(如具备推力矢量控制的火箭姿态调节),状态空间表示法应运而生

Representative MIMO systems

在此框架下,控制系统被进一步优化:观测器层面引入了卡尔曼滤波器(Kalman Filter),通过融合预测状态估计与实际测量值,得出最优状态估计值 ;控制器层面则发展出以线性二次型调节器(LQR)为代表的优化逻辑,通过最小化代价函数(如积分代价函数)来实现最优控制

State Space Representation

Observer + Optimization = Kalman Filter

野生钢铁侠-稚晖君的自行车依旧采取LQR控制逻辑

二、 令人心安的数学保证

可以说,传统控制理论最大的魅力在于其可被数学证明的稳定性界限,为工程应用提供了极其可靠的保证。

e.g.1.通过极点配置(Pole placement),可以在复平面(s-plane)上严格划定并设计系统的稳定模态与不稳定模态

e.g.2.在应用 LQR 控制等现代方法时,系统可以被数学证明拥有无穷大的增益裕度(Gain Margin = ∞,以及至少 60 度的相位裕度(Phase Margin > 60degree)为系统提供了极佳的鲁棒性。

三、数据驱动控制:AI的进化与传统稳定性的崩塌

由于真实世界的物理系统往往是非线性的,尽管有大量控制理论专家依旧在努力利用各种非线性系统线性化转化方法来拉近现实与数学模型之间的距离,但是当物理参数繁杂到难以用精确的方程式穷尽描述时,完全依赖解析模型变得不再可行。数据驱动(Data Driven)方法随之崛起,逐步替代模型驱动

阶段一(1996年):辅助系统描述。 学界(如 F. L. Lewis 等人)首次证明了神经网络可以作为非线性系统的通用逼近器,并给出了权重更新的稳定性分析。这一阶段,AI 主要用于补偿扰动,解决复杂系统物理参数测不准的问题,但底层依然依赖传统的反馈线性化等控制方程框架

Lewis, F. L., et al. (1996). “Stable Neural Network Control of Rigid-Link Robots.”

阶段二(2015年):摆脱控制系统框架。 学界开始彻底抛弃机理模型。通过端到端(End-to-End)训练深度视觉运动策略(Deep Visuomotor Policies),AI 实现了从视觉像素特征直接输出机械控制动作。这跳出了物理参数太杂的限制,但带来了训练极慢且完全不可解释的新挑战

Levine, S., et al. (2016). “End-to-End Training of Deep Visuomotor Policies.” (Berkeley)

阶段三(2018年):模拟真实世界。 针对现实中训练试错成本太高昂的问题,研究人员(如 Ha & Schmidhuber)引入了世界模型(World Models)与变分自编码器(VAE)。AI 学会了对环境进行降维表征,并在自己构建的虚拟“想象”环境中进行快速演化和策略学习

Ha, D., & Schmidhuber, J. (2018). “Recurrent World Models Facilitate Policy Evolution.”

阶段四(2022年至今):理解真实世界。 以 Yann LeCun 提出的 JEPA(联合嵌入预测架构)及自主机器智能路径为标志,AI 架构演进到不再单纯预测表面的像素变化,而是更加直接地理解和预测真实世界的底层“物理逻辑”和状态转化

LeCun, Y. (2022). “A Path Towards Autonomous Machine Intelligence.”

四、理论隐患:数学保证的彻底失效

尽管有大量利用数据驱动的控制方法展露头脚,但是数据驱动的狂飙突进,直接导致了传统控制理论中绝对稳定性的失效,“不可靠”成为了数据驱动控制最大的弊病。

李雅普诺夫(Lyapunov)稳定性的终结: 经典理论中,如果能为一个系统找到一个满足正定条件(V(x)>0)且其导数负定的李雅普诺夫函数 V(x),即可证明该系统具有全局渐近稳定性。然而在深度强化学习或 JEPA 等巨型神经网络中,控制逻辑被黑盒化为数亿个非线性权重参数,人类完全无法为其构造出一个对应的李雅普诺夫函数。系统最终会收敛到安全平衡点的数学证明随之消失

对抗样本与鲁棒性崩溃: 传统系统对高频噪声具有确定的裕度包容能力,但基于深度学习的 AI 却对特定的微小恶意扰动极其脆弱。例如,在自动驾驶视觉识别中,攻击者只需在“STOP(停止)”标识牌上叠加特定的对抗扰动噪声,就能让 AI 模型将其误识别为“限速50”。这种鲁棒性的崩溃已在现实中酿成惨剧,如 Uber 自动驾驶测试车撞击路人致死事故,以及工业机器人异常暴走的动作执行失败

五、分层架构的未来:仿生学视角的融合与重构

为了兼顾 AI 强大的泛化预测能力与传统控制理论的绝对安全底线,目前学术界与工业界演化出了一种受生物大脑启发的“分层架构”设计理念

宇树(Unitree)G1人形机器人:采用了“新皮质大脑 + 小脑”的双层架构。新皮质大脑(基于 VLA 视觉语言动作模型与 Transformer)负责处理语义指令和宏观动作意图;而小脑层(底层的全身动力学控制 WBC)则负责将这些意图转化为物理上安全、连续的关节力矩进行执行

理想汽车(Li Auto)自动驾驶:划分为 System 1(系统1-行为)与 System 2(系统2-思考)。“系统1”是一个端到端(E2E)模型,直接接收传感器输入并输出行驶轨迹,具备极高的执行效率和快速响应能力;“系统2”则是一个视觉语言模型(VLM),负责复杂的逻辑推理,并将思考后的决策信息传递给系统1指导其行为


Skydio 无人机自主飞行系统:划分为搭载 NVIDIA Jetson Orin 算力平台的 Onboard AI(大脑层),负责长程测绘任务的理解、目标跟踪与规划构图;同时配有 Expert Instincts(小脑层),该底层系统能利用鱼眼相机捕捉的数据,在毫秒级别内计算出无数条符合物理学规律的可达路径,从而实现即便在无光环境下也能做到 360 度全方位避障

结语

我想在工程技术与理论的发展进程中,没有任何一次单一路线的革新是完美无缺的。数据驱动的 AI 为复杂现实环境的适应能力极大地扩容了现代控制理论的适用场景边界;而成熟稳健的传统控制理论,则为 AI 剥离“黑盒泡沫”提供了最坚实的安全与数学基础

Intelligence (AI architecture) +  Stability(Control system)= Trustworthy(Embodied AI)

我相信这将是引领未来复杂系统发展的必然公式

以上仅代表个人观点
郭志鹏
2026.05.01

香港中文大學機械與自動化工程學系在讀博士

清华大学建筑学硕士
西北工业大学建筑学学士