乐于分享
好东西不私藏

符号计算的黄昏:AI数学建模能力突破的方法论反思

符号计算的黄昏:AI数学建模能力突破的方法论反思

当机器在八小时内完成了一个人类需要两个月才能攻克的数学工程,我们需要重新审视的不仅是AI的能力边界,还有社会科学方法论的基础假设。


一、一个被打破的直觉

过去几年,我对AI能力边界的判断修正过几次,但有一条始终没变:符号计算是它过不去的坎。

理由很充分。文本生成是概率性的游戏——在”差不多对”的区间里,语言有足够的宽容度允许模糊和折中。符号计算不一样。偏导数差一个负号,方程组方向就反了。对数线性化丢掉高阶项,稳态不再是稳态。形式化证明更不近人情。每一步严格成立,或者整座大厦塌掉。没有”八九不离十”。

我接触的经济学研究者——宏观的、微观的、计量的——几乎都这么想。AI整理文献、跑回归、画图表、写初稿,都没问题。核心数学推导?得自己来。大语言模型预测下一个词元,不”理解”自己在说什么,更不可能严格地在形式化系统中推演。最乐观的人也觉得”AI做数学”是十年之后的事。

2025年下半年,信号开始松动。DeepMind的AlphaProof在2024年IMO中达到银牌水平,次年11月登上《自然》(AlphaProof, 2025)。OpenAI o3在美国数学邀请赛上拿到96.7%准确率。DeepSeek-R1在MATH-500上97.3%正确率超过GPT-4o。数字令人印象深刻。但学术界的反应审慎。竞赛数学和真实研究建模隔着不止一道墙。有标准答案的题,和没人告诉你该怎么建的模型,是两回事。

直到2026年4月底我做了那个实验。

二、DSGE模型到底难在哪里

先说DSGE。动态随机一般均衡,宏观经济学理论体系的集大成者。微观主体的最优决策——家庭怎么分配消费储蓄、企业怎么定产定价——宏观总量约束——资源、预算——市场结构——完全竞争或垄断竞争——名义摩擦——价格黏性、工资黏性——外生冲击——技术、货币政策——全部塞进同一个动态优化框架。理论基础横跨拉格朗日乘子法、Bellman方程、Pontryagin极大值原理,求解还要用到实分析里的不动点定理。

光这些名字就够呛。

实际建模只会更残酷。一个中等规模DSGE,20到50个方程,几十个参数——既有结构参数(偏好、技术、政策),也有深层参数(从微观估计或校准得到)。建模者要走完这样一条路。

先推导一阶条件。Euler方程、劳动供给方程、菲利普斯曲线。不是本科教材那种简单两期模型。无穷期、多约束、有时带不确定性。优化理论差一点就推不动。

然后求稳态。稳态是整条路的锚点。锚点错了,后面全零。稳态求解是非线性方程组求根,常常要数值迭代。迭代不收敛?重来。收敛了但数值不稳?查参数。调完参数再迭代,发现之前的收敛是假的?再来。

接着对数线性化——最繁琐也最易出错的环节。每个方程对每个变量取对数再展开,保留一阶项。30个方程,每个涉及5到10个变量,几百个偏导数。一个符号搞反、一层链式法则漏掉、一个分母放错,后面全部失败。而且你往往不知道是哪个错了。脉冲响应”看起来不对劲”,要在几十个方程几百个偏导数里找那个罪魁祸首。这个过程,熟手博士也要两三个月。

再验证Blanchard-Kahn条件。BK条件判定模型解是否唯一且稳定。不满足的话,数学上没有良好定义的解,经济学上毫无意义。BK条件取决于特征值分解,特征值分解取决于对数线性化矩阵——前面任何一步的微小错误都在这里放大。

最后,BK条件满足了,求解状态空间方程,计算脉冲响应函数。脉冲响应是DSGE的”产出”:外生冲击发生后,每个内生变量后续若干期内怎么变。整个建模的价值在这里。

有个细节。有经济学博主引用一位博士的坦白:”你确定你所有对数线性化都弄对了?”回答是:”No, of course not, but this is how the game is played.”连从业者自己都不敢确定。

所以数学推导我一直不让AI碰。文本可以有瑕疵。观点可以有争议。但数学只有对和不对。负号之差,模型给出相反的政策含义。把零容错的工作交给预测token的系统?玩火。

三、八个小时

2026年4月下旬一个晚上,我把一个想法扔给了AI。

让它从头建一个两部门DSGE模型。不给数学步骤,不给推导指引,不给BK条件的验证方法。全部信息只有经济学层面的建模思路——模型要捕捉什么机制、两个部门怎么交互、外生冲击的结构是什么。说直白点,就是一个经济学家在咖啡馆口述的”点子”。

然后让它跑。

我去做别的事了。偶尔过来看一眼。

AI先设家庭和企业的优化问题,推导Euler方程和劳动供给条件。然后求稳态——迭代不收敛,停下来,回溯检查稳态方程组,预算约束里漏了一项。修复。重跑。收敛了。

进入对数线性化。三十多个方程逐一展开。某个Euler方程展开后缺了交叉项。另一个方程政府支出稳态比值标错。下一步用到这些结果时发现不一致,回头修正。

验证BK条件。不满足。查状态矩阵维度——一个变量前定/跳跃分类搞错了。改完。重验。通过。

求解状态空间。生成脉冲响应。

后来翻它的运行日志时,那种感觉很奇特。像一个不知疲倦的研究生在深夜刷屏。犯一个错。检查。发现。修复。再犯。再查。再修。周而复始。不会因为凌晨三点而放弃。不会因为第37次失败而焦虑。不会给自己倒杯咖啡。

八小时后,模型完成了。

稳态收敛。对数线性化矩阵维度通过。BK条件满足——恰好有足够的状态变量使解唯一且稳定。脉冲响应全部生成。技术冲击后产出先升后降,消费平滑变动,投资先跳后落。货币政策冲击的传导路径与经典文献吻合。

我花了大半天逐行核验。每个偏导数、每个矩阵维度、每个特征值。推导干净。完整。没发现错误。

核验完那一刻,说实话,有些恍惚。不是因为结果出乎意料。而是因为在此之前,我打心眼里认为这件事不可能发生——不是”暂时做不到”,是”在可见的未来都不可能做到”。

四、为什么这件事比写文章重要

写过学术论文的人大多能理解这种区分:文字是宽容的,数学是不宽容的。

理论框架可以有不同角度,论证可以走不同路径,结论有争议空间。审稿人不同意你,也不会说你的框架”错了”——”不够充分”或”有待商榷”。方法论、假设合理性、实证策略的争论几十年没停过,因为这些事本来就没有绝对标准答案。

BK条件要么满足要么不满足。矩阵维度要么对要么不对。稳态方程错了,后面全部是废纸——不是”可能有偏差”,是”系统性无效”。

DSGE把这种不宽容放大到了工程级。几十个方程,精密建筑。一个方程地基不稳,通过状态空间传导机制影响每个角落。一个参数标定不合理,脉冲响应就违背直觉。”一个错误毁掉一切”不是修辞,做过DSGE的人都有过那种面对脉冲响应图时”不对劲但不知道哪里不对”的绝望。

而AI做完了。

不是一道题。是规划、数百步严格推导、反复自检纠错。关键是——没有任何人预设数学路径。凭经济学语言描述,它自行规划了完整推导。

竞赛题有标准答案,路径虽多但有限。建DSGE不存在唯一正确路径。模型设定是理论创造,每步决策涉及经济学判断。模型不满足BK条件时,AI不是盲目重试,它回去查经济学设定。变量的前定/跳跃分类是不是搞错了?稳态方程是不是漏了一项?

刘涛雄年初写过一篇论文,讨论AI驱动的计算经济学(刘涛雄, 2026)。我读到时觉得方向对但时间还早。现在”时间还早”这个判断恐怕站不住了。

五、当计算不再稀缺

一个直接变化是研究者时间重新分配。经济学博士训练中有相当一块花在数理工具上——微积分、线性代数、动态优化、实分析、具体模型的推导求解。训练的价值不只在于”会算”。推导过程迫使你真正理解每个假设的含义、每个等式背后的直觉。手动对欧拉方程做对数线性化,会发现哪些项在关键位置,哪些参数变动有实质影响——这种”手感”只有做推导才能获得。但”工具价值”确实被削弱了。

研究效率也有变化。建一个中等规模DSGE,从设想到出图,两三个月。很多有价值的理论构想因此搁置——想法不差,但时间太长。如果AI把周期压到一两天,试错成本大幅下降。

还有一层容易被忽略但可能更重要的事。DSGE建模最大的风险不是”算不出来”,而是”算出来了但算错了”。推导中微小致命的错误让脉冲响应看起来合理实则不然。这种情况在已发表文献中并不罕见。审稿人也没精力逐行核验。如果AI能快速重建并独立验证推导,审稿人或任何读者直接运行AI核验论文中的数学——这等同于理论推导的可复现研究。

但有个事我确实担心。AI直接给你完整推导,你跳过培养手感的过程直奔脉冲响应图形。长此以往,对模型内在机制的理解变浅。能做出更多模型了,对每个模型的理解程度反而可能降低。洪永淼和汪寿阳曾指出过类似的张力:AI可以处理高维参数的大模型,但经济学的价值不在模型复杂度,在”经济可解释性”(洪永淼、汪寿阳, 2023)。计算不再是瓶颈之后,区分好研究和坏研究的标准不是”能不能算出来”,是”算出来有没有意义”。

六、没回答的问题

AI完成了推导。提出了什么经济学问题?没有。它是极好的执行者,不是问题发现者。不会在凌晨三点突然想到新的建模角度。不会因为读到一篇无关论文就把两个领域的洞察连接起来。不会在看到反直觉脉冲响应时追问”为什么会这样”。提出问题、发现矛盾、构建新理论框架,这些仍然需要人。

符号计算正在被攻克。不是”有望”,是已经。2025年AlphaProof拿IMO银牌,2026年OpenAI o3数学推理接近完美,同年DeepSeek-R1展示符号计算与数值运算之间的动态平衡。我亲眼看到的实验表明,这些能力已经从”解有标准答案的题”迁移到”建没有标准答案的模型”。跨度之大、速度之快,超出我所有预判。

明年这个时候,博士论文里那些最难啃的数学——动态规划求解、贝叶斯估计、高维非线性优化——很可能都能自动完成。不是乐观预测。按当前速度线性外推就够了。

到那个时点,问题不再是”AI能不能帮我们算”。是”我们该让它算什么”。

计算不再稀缺,思想是唯一的稀缺品。这句话像老生常谈,但含义正在变得具体:博士生怎么训练,期刊怎么审稿,研究者赖以立足的能力到底是什么。

不是从”会做数学”转向”不做数学”。是从用双手做数学,转向用头脑想数学。

这件事已经发生了。我们还没消化它。