在建设AI大模型的过程中,我们会频繁遇到以下核心数学逻辑和公式,它们贯穿于数据表示、模型结构、训练优化和推理生成的全流程。根据搜索结果,这些数学工具主要分布在线性代数、概率统计、微积分与优化、信息论四大支柱中
一、线性代数:大模型的骨架与语言
这是最核心、最频繁使用的数学领域,几乎所有操作都围绕向量、矩阵和张量展开。
矩阵乘法(核心运算)神经网络的每一层本质上都是矩阵乘法加上非线性变换:
\text{输出} = \sigma(W \cdot X + b)输出=σ(W⋅X+b)输出 = σ ( W ⋅ X + b ) 其中
是权重矩阵, WWW
是输入向量, XXX
是激活函数。Transformer 中的自注意力机制也完全依赖矩阵乘法: \sigmaσσ
这里 \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQK⊤)VAttention ( Q , K , V ) = softmax ( Q K ⊤ d k ) V
都是矩阵,整个计算过程涉及多次矩阵乘法。 Q, K, VQ,K,VQ , K , V 奇异值分解(SVD)与低秩近似用于理解矩阵的本质和实现模型压缩。任何矩阵
MMM 可分解为:
这一公式揭示了“信息集中在少数方向上”的直觉,直接启发了 LoRA(低秩适配) 微调技术: M = U \Sigma V^\topM=UΣV⊤M = U Σ V ⊤
参数量从 \Delta W = B A,\quad B \in \mathbb{R}^{d \times r}, \; A \in \mathbb{R}^{r \times d}, \; r \ll dΔW=BA,B∈Rd×r,A∈Rr×d,r≪dΔ W = B A , B ∈ R d × r , A ∈ R r × d , r ≪ d d^2d2降至2d 2 d r 2dr2dr,微调效率极高。 以上如下图:

特征值与特征向量用于主成分分析(PCA)降维、谱聚类等场景。特征向量是矩阵变换中“方向不变”的向量,特征值表示该方向上的缩放因子
二、概率论与统计:不确定性的数学语言
大模型本质上是一个概率模型,每一步预测都是基于概率分布的采样。

具体如下
条件概率与语言建模大模型预测下一个词的核心公式:
P(\text{下一个词} \mid \text{上下文})P(下一个词∣上下文)P ( 下一个词 ∣ 上下文 ) 整个语言模型就是学习条件概率分布 Softmax 函数(概率归一化)模型最后一层将 logits 转换为概率分布:
p(y_i \mid \mathbf{x}) = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}p(yi∣x)=∑j=1Kezjezip ( y i ∣ x ) = e z i ∑ j = 1 K e z j 这是将任意实数向量转化为概率分布的标准方法,也是温度采样(temperature scaling)的数学基础。 最大似然估计(MLE)训练目标的本质——找到让观测数据出现概率最大的参数:
\mathcal{L}(\theta) = \prod_{i=1}^n p(\mathbf{x}^{(i)} \mid \theta)L(θ)=i=1∏np(x(i)∣θ)等价于最小化交叉熵损失。L ( θ ) = ∏ i = 1 n p ( x ( i ) ∣ θ ) 贝叶斯定理用于理解先验与后验的关系,以及模型不确定性量化:
p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})}p(θ∣D)=p(D)p(D∣θ)p(θ)p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) 贝叶斯微调、正则化(如L2等价于高斯先验下的MAP估计)都依赖此公式。 期望与方差用于评估模型预测的置信度,例如输出“95%概率”时的校准(calibration)技术。
三、微积分与优化:模型训练的引擎
模型训练本质上是一个高维非凸优化问题,微积分提供了求解的工具。

具体如下:
链式法则(反向传播的数学本质)梯度从输出层一层层传回输入层:
\frac{\partial L}{\partial W} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial W}∂W∂L=∂a∂L⋅∂z∂a⋅∂W∂z∂ L ∂ W = ∂ L ∂ a ⋅ ∂ a ∂ z ⋅ ∂ z ∂ W 这是深度学习框架中 loss.backward()的底层数学原理梯度下降及其变体核心迭代公式:
\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta \mathcal{L}(\theta_t)θt+1=θt−η⋅∇θL(θt)θ t + 1 = θ t − η ⋅ ∇ θ L ( θ t ) 现代大模型标配的优化器是 AdamW,它结合了动量(惯性)和自适应学习率。常见超参数:学习率约
(8B模型)到 3 \times 10^{-4}3×10−43 × 10 − 4 1.5 \times 10^{-4}1.5×10−4(70B模型),配合 warmup + cosine 衰减。1.5 × 10 − 4 梯度消失与爆炸深层网络中连乘效应导致梯度过小或过大,常用解决方案包括残差连接(
y = x + f(x)y=x+f(x)y = x + f ( x ) )、梯度裁剪(
)、层归一化(LayerNorm)等。 \|\nabla \theta\| \leq 1.0∥∇θ∥≤1.0∥ ∇ θ ∥ ≤ 1.0
四、信息论:损失函数与评估指标
信息论为设计损失函数和评估模型质量提供了理论框架。

具体如下:
交叉熵损失(最常用的损失函数)衡量预测分布
q 与真实分布
的差异: ppp H(p, q) = -\sum_x p(x) \log q(x)H(p,q)=−x∑p(x)logq(x)语言模型训练中,交叉熵最小化等价于最大化正确 token 的对数概率H ( p , q ) = − ∑ x p ( x ) log q ( x ) KL 散度用于衡量两个概率分布的“距离”:
D_{\text{KL}}(p \| q) = \sum_x p(x) \log \frac{p(x)}{q(x)}DKL(p∥q)=x∑p(x)logq(x)p(x)D KL ( p ∥ q ) = ∑ x p ( x ) log p ( x ) q ( x ) 在 RLHF(基于人类反馈的强化学习)中用于约束微调模型不要偏离原始模型太远,也用于知识蒸馏 困惑度(Perplexity)语言模型的核心评估指标,本质上是每个词的平均熵:
\text{PPL} = 2^{H(p)}PPL=2H(p)困惑度越低,表示模型对下一个词的预测越准确PPL = 2 H ( p ) 注意力机制中的缩放因子为什么注意力公式中要除以
\sqrt{d_k}dkd k ?因为当维度
较大时,点积 d_kdkd k
的方差约为 QK^\topQK⊤Q K ⊤
,不缩放会导致 softmax 进入饱和区、梯度消失。除以 d_kdkd k
将方差归一化为 1,保持梯度敏感区间。 \sqrt{d_k}dkd k
五、其他重要数学概念
万能逼近定理理论保证:只要网络足够宽或足够深,前馈神经网络可以逼近任意连续函数。这是神经网络表达能力的基础
2.数值计算与混合精度大模型训练中广泛使用 FP16/BF16 混合精度,这依赖于数值稳定性理论。层归一化、位置编码等技巧确保数学运算在硬件上高效稳定运行
3.正则化方法
L2正则化(权重衰减): \text{loss} = \text{原损失} + \lambda \|W\|^2loss=原损失+λ∥W∥2loss = 原损失 + λ ∥ W ∥ 2 Dropout:训练时随机丢弃神经元,防止共适应 LayerNorm:对每一层的输出做归一化(均值0、方差1),Transformer 标配。
总结:我们需要掌握到什么程度?
根据搜索结果,不同角色对数学的掌握深度要求不同:
| 应用开发者(调API) | |
| 模型微调工程师 | |
| 算法研究员 |
学习建议:不必从头啃完一本数学教材,而是带着具体问题去学——“这个参数调了会影响什么” → 去看对应的数学概念。推荐 3Blue1Brown 的线性代数和微积分系列视频,能帮你建立极佳的几何直觉。
以上数学逻辑和公式基本覆盖了从数据表示 → 模型结构 → 训练优化 → 推理生成的完整链路,是建设 AI 大模型时绕不开的核心数学工具。

夜雨聆风