AI顶会ICLR解读 | 告别反复训练:物理信息神经网络如何实现高速高精度求解?

一、论文信息

从空气流动到波的传播，很多看似复杂的动态现象，背后都可以写成偏微分方程。物理信息神经网络一度让人看到“用神经网络直接解方程”的可能，但这篇论文进一步追问：如果不再依赖反复的梯度下降，能不能把这件事做得更好？

本篇推文解读的文章来自 International Conference on Learning Representations，简称 ICLR。它是机器学习与人工智能领域最具影响力的国际会议之一，长期聚焦表征学习、深度学习及相关前沿问题，在全球学界与工业界都有很高关注度。特别值得一提的是，在 2026 年发布的第七版中国计算机学会推荐国际学术会议和期刊目录中，ICLR 已被列入 CCF-A 类会议。

英文题目: Fast Training of Accurate Physics-Informed Neural Networks Without Gradient Descent
中文题目 ：无需梯度下降的高精度物理信息神经网络快速训练
作者：Chinmay Datar，Taniya Kapoor，Abhishek Chandra，Qing Sun，Erik Bolager，Iryna Burak，Anna Veselovska，Massimo Fornasier，Felix Dietrich
来源 :OpenReview，页面标注为 Oral

二、背景与贡献

这篇文章关注的是时间依赖偏微分方程（Partial Differential Equations，PDEs）的数值求解。它把经典的物理信息神经网络（Physics-Informed Neural Networks，PINNs）重新改写成一种更接近数值分析流程的学习框架，其核心不是反复做梯度下降，而是把空间部分固定下来，再把时间部分写成常微分方程去推进。

文章指出，传统 PINNs 的主要问题来自两个方面。其一是训练目标本身过于耦合。PDE 残差、初始条件、边界条件同时进入一个非凸目标函数，参数维数高，损失之间还可能互相牵制。其二是时间在很多 PINN 里被当成普通输入维度处理，没有真正体现时间推进的因果结构。这样做会让网络基函数覆盖整个时空区域，在长时间模拟、高频时间变化、激波等问题上更容易失真。

本文提出 Frozen-PINN，其贡献可以概括为三点。

提出时空分离（space-time separation）训练思想。 空间基函数先随机采样并冻结，时间只体现在输出层系数里，从结构上保留时间因果性。
提出无梯度下降训练流程。 初值由最小二乘求解，时间演化由自适应常微分方程求解器完成，因此训练不再依赖反向传播去优化整网参数。
提出边界处理与压缩机制。 一方面给出边界相容层（boundary-compliant layer）与增广常微分方程两种边界处理方案，另一方面加入奇异值分解层（SVD layer）降低刚性与系统维数。

三、主要结论

论文在九类 PDE 基准上比较了 Frozen-PINNs 与多种 PINN 变体，以及 IGA-FEM 和 FEM 等经典方法。总体上，Frozen-PINNs 在几乎所有任务上都表现出更快的训练速度与更高的精度。文中给出的结论包括：在若干基准上训练可快出到倍；在线性对流方程里，速度系数可增大到，相对误差仍低于；在的长时间模拟中，模拟到秒时相对误差仍低于；在多个高精度设定下，Frozen-PINNs 是少数能进入到精度区间的神经 PDE 求解器。

更细一点看，ELM 采样更适合平滑解，SWIM 采样更适合存在局部陡变和激波的解。低维问题上，Frozen-PINNs 的精度已经接近 IGA-FEM 与 FEM；高维问题上，它又保留了神经方法不依赖网格的优势。

四、方法细节

文章考虑的时间依赖 PDE 写成

其中边界条件与初始条件分别为

Frozen-PINN 的近似解写成

这里只依赖空间并且在采样后冻结，只依赖时间。文章特别说明，这种写法并不要求真解本身可以分离变量。

在隐藏层采样上，作者使用两种策略。极限学习机（Extreme Learning Machine，ELM）直接随机采样权重与偏置。SWIM 则利用两点构造方向明确的基函数，其权重与偏置可写成

把上式代回 PDE 后，时间系数满足一个常微分方程

其中

而初始条件不是靠训练损失去拟合，而是直接由最小二乘给出

边界条件有两种做法。若边界形式较规则，则构造边界相容层，使边界条件在结构上成立。若几何更复杂，则采用增广常微分方程

最后，为降低系统刚性，作者对做截断奇异值分解，得到更低维的正交基，再在该基上推进时间系数。这样既减少了 ODE 维数，也改善了条件数。

伪代码如下：

五、消融与数值实验

实验覆盖线性对流方程、Euler-Bernoulli 梁方程、波动方程、Burgers 方程、复杂区域非线性扩散、Kuramoto-Sivashinsky 方程、五维反应扩散方程以及最高到一百维的热方程。结果最值得关注的有四点。

高频时间变化与长时间模拟。 线性对流方程中，传统 PINNs 在高对流速度下明显失效，而 Frozen-PINNs 仍能保持较低误差。
激波与局部陡变。 在 Burgers 方程里，SWIM 通过重采样把陡峭基函数放到激波附近，效果明显好于 ELM 以及傅里叶和 Chebyshev 基。
复杂几何。 在树枝状区域的非线性扩散问题中，Frozen-PINNs 直接在点云上工作，省去了复杂网格构造。
高维扩展。 在十维到一百维热方程上，Frozen-PINN-elm 相比 PINNs 保持更高精度，且训练时间通常更短。

消融实验说明，SVD 截断阈值控制了速度与精度的平衡；在 Burgers 方程上，SVD 层带来约倍宽度压缩与约倍加速；在复杂区域非线性扩散上，Frozen-PINN-elm 的 SVD 层可把宽度压缩到原来的约，时间约加速倍；在五维反应扩散问题中，利用投影后的 SWIM 基函数，只用个内部点就能达到与个点接近的误差水平。

表格见原文第10页表2，照录如下：

PDE setting	IGA-FEM/FEM	PINNs	Frozen-PINNs
Solutions with shocks	✓	✓	✓ (SWIM)
Complex domains	mesh	Easy	Easy
High dimensionality	✗ (CoD)	✓	✓
Accuracy/Precision	High	Often low	High
Speed	Fast	Slow (training)	Fast
Temporal causality	✓	✗ (soft constraint)	✓

六、我们的思考

通过学习这篇文章，我们从统计学和AI交叉的观点出发，认为这篇文章可能适合作为快速前向求解器使用。

第一，它可以直接服务于贝叶斯逆问题（Bayesian inverse problems）与不确定性量化（uncertainty quantification）。这类任务往往要反复调用 PDE 前向模型，Frozen-PINN 的快速求解特性会直接影响后验采样与变分推断的成本。

第二，它的时间推进是显式因果的，因此很适合和状态空间模型（state space models）、序贯蒙特卡洛（sequential Monte Carlo）、滤波与数据同化结合。

第三，ELM 与 SWIM 的差异提示我们，可以把基函数采样、配置点设计、SVD 截断都看成统计决策问题，进一步引入实验设计（design of experiments）和主动学习（active learning）方法。

第四，文章目前假设 PDE 已知，因此未来可以把它扩展到参数识别、模型校准、多保真近似，以及带观测噪声的概率数值计算（probabilistic numerics）中。

另外，就论文自身的后续方向而言，论文作者也指出了几条值得继续推进的路线，包括更复杂空间结构下的 Navier-Stokes 类问题、周期性重采样如何突破 Kolmogorov 宽障碍，以及在特定 PDE 设定下的逼近理论。这些问题如果和统计学习中的泛化误差、模型选择与不确定性传播联系起来，后续会更有研究空间。

本篇推文的封面、图片、表格全部来自论文原文：Fast Training of Accurate Physics-Informed Neural Networks Without Gradient Descent