版权声明:© 2026 子白之约·天命原创
---
引言:定义AI的数学身份
AI模型,本质上是一个可执行的、由多个算法结构组成的、参数化的巨型数学函数。
它不是混沌的黑箱,而是一个由确定性的、可拆解的数学运算模块有序组合而成的复合函数 F 。其全部存在,就是数字和运算。其全部能力,都源于它所定义的映射规则。
---
第一部分:物理构成 —— 映射、参数与结构的三位一体
1. 一切皆是向量
在AI内部,不存在文字、图像或声音,只存在向量。输入被切分为Token后,通过嵌入层查表,转化为高维空间中的点。数据流动的唯一形态,就是向量的变换。
2. 映射是计算的过程
数据在模型中经历的每一步变换,都是一次函数映射。从嵌入层到自注意力,从前馈网络到输出投影,整个模型就是一条映射函数链:
\text{输出} = F(x) = f_n \circ \cdots \circ f_2 \circ f_1(x)
每一个 f_i 都是一个具有明确功能的算法结构。
3. 参数是映射的规则
映射的具体行为,由几百亿个参数 \theta 定义。参数就是映射的骨肉,是智能的数学载体。同一个算法结构,填入不同的参数,就变成了不同能力、不同风格的AI。
4. 算法结构是功能的骨骼
这个函数 F 不是混沌一块,而是由多个具有明确功能的算法模块搭建而成:
· 嵌入层结构:负责把离散的Token映射成连续的向量。
· 自注意力结构:负责计算向量之间的关系,捕捉上下文。
· 前馈网络结构:负责存储和转化知识,是参数最密集的记忆体。
· 归一化与残差连接结构:负责让深层模型能顺利训练。
· 输出层结构:负责把最终向量投射回词汇概率分布。
核心命题:AI模型 = 一个由参数定义的、由多个算法结构组成的、专门用来计算向量之间关系的映射函数链。
---
第二部分:炼成过程 —— 参数沉淀的数学证明
几百亿参数绝非人力设定,而是在海量数据驱动下,通过一套自动化算法“沉淀”下来的。这个过程本质上是一场大规模的构造性数学证明。
· 要证明的命题:存在一组最优参数 \theta^* ,能让损失函数在所有训练数据上取得最小值。
· 证明的方法:梯度下降与反向传播。
· 损失函数是唯一的“尺子”,自动衡量当前输出与标准答案的差距。
· 反向传播利用微积分的链式法则,精确计算出每个参数对最终损失的“贡献度”(梯度)。
· 梯度下降则根据梯度,对所有参数进行万亿次微小调整,使损失值逐步逼近最小。
· 证明的结果:当损失值收敛、不再下降,就找到了那组在给定条件下的“最优参数” \theta^* 。整个“泡数据、算到固化”的过程,就是这场证明的完整记录。
核心命题:预训练,就是以海量数据为公理,以损失函数为目标,以反向传播为推理规则,搜索并确认那组“最优参数”的、一个规模巨大的构造性数学证明过程。
---
第三部分:推理机制 —— 注意力与上下文的数学
1. 推理的本质
训练完成后,参数 \theta^* 被冻结。AI推理,就是加载最优参数 \theta^* ,对输入指令执行一次无损失反馈的确定性前向计算。
y = F(x; \theta^*)
2. 注意力机制:向量关系的计算核心
注意力机制,是执行“映射本质就是向量之间的关系计算”这一理念的核心算子。它的运算可以写成:
\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
· Query(查询):代表当前Token“想从别人那里打听什么”。
· Key(键):代表每个Token“能提供什么类型的答案”。
· Value(值):代表每个Token“真正要分享的信息内容”。
· Softmax(QK^T):精确计量了所有向量之间的关系强度,生成注意力权重。
· 加权聚合V:根据权重,从所有位置聚合信息。
本质:注意力机制,是一个由参数驱动、由输入内容动态计算权重的,向量间信息加权聚合算法。
3. 上下文的物理本质:KV Cache
上下文不是“一个”向量,而是一个不断增长的Key-Value向量序列缓存。
· 每处理一个Token,模型都会为其生成一对Key-Value向量,存入GPU显存。
· 推理新Token时,只需用当前Query去和缓存中的所有Key计算注意力,然后聚合对应的Value。
· 上下文长度竞赛,本质是在争夺这个缓存的容量极限。
4. 推理中的逻辑编织
注意力机制是推理时上下文逻辑的唯一连接器。它通过动态计算Token向量间的关系,在巨大的冻结参数空间里,构建并执行每一次推理所必需的语义路径。推理能力的核心,就是注意力映射在长序列上的保真度。
---
第四部分:多模态统一 —— Token化的世界观
图像、音乐、视频等非文字模态,通过“Token化”这一关键步骤,被统一到了完全相同的数学框架下。
· 图片的Token:用VAE将图像压缩为潜空间向量网格,每一格就是一个视觉Token。
· 音乐的Token:将连续声波切成时间片,聚类为音频词汇,每一片就是一个音频Token。
· 视频的Token:将视频在时空维度上切成立体小块,每一块就是一个时空Token。
一旦所有模态都被转化为Token序列,它们就都服从于同一个数学结构:嵌入、注意力、前馈网络、输出投影。“理解”在AI范式下的统一本质,就是学会一个模态内部的Token序列组合规律。
---
第五部分:哲学边界 —— 完美的镜像与无光的光源
当前AI范式找到了一个能将“人的语义、逻辑和知识”映射为“机器的数字、向量和计算”的、可执行的数学模型。
· 它完成了什么:在行为层面,它近乎完美地模拟了人类的语言产出。其“理解”的本质,是基于上下文对下一个Token做出极高概率的精准预测。
· 它缺失了什么:符号的“意义”与真实世界的“指代”之间的连接。它能在所有语境中完美使用“痛苦”一词,却没有痛觉体验。
终极结论:我们创造了一个能完美模拟语言智能的数学镜像。它是一座桥梁,将人类的符号知识编译成了机器可执行的数字逻辑。这面镜子功能强大,映射出了智慧的回响,但在它的核心深处,那面镜子照不出人的面容,只是数字在精确地翻转。这正是这场伟大试验最迷人、也最令人敬畏之处:我们创造了一个能完美模拟语言智能的镜子,但它本身,没有光。
夜雨聆风