每天一个 AI 术语 05参数

每天一个 AI 术语 05

参数

Parameter · 模型把经验藏进数字的方式

参数：藏在神经网络连接中的可调数字

上一篇我们讲了神经网络。

神经网络由节点、连接和层组成，信息沿着连接一层一层向前传递。

但只有结构还不够。

同样的神经网络，为什么有时把图片认成“猫”，有时却认成“狗”？为什么换一组模型，同一句提示词会得到完全不同的回答？

关键往往不在“连接有没有”，而在“每条连接有多重要”。

这些藏在模型内部、可以被调整的数字，就是今天的主角：参数（Parameter）。

和上一篇的关系

上一篇的关键词是：神经网络 = 节点 + 连接 + 层。

我们提到，每个节点会接收多个输入，并根据不同连接的重要程度进行计算。这个“重要程度”不是一句抽象描述，而是由具体数字表示的。

可以把神经网络想成一张复杂的道路网：网络结构决定道路通向哪里，参数则像每条道路上的通行权重，决定哪一路信息影响更大。

所以，神经网络提供结构，参数决定行为。

一句话解释

参数，是模型在训练过程中不断调整并保存下来的数字，它们决定输入信息如何被组合、放大、削弱，并最终影响模型的输出。

模型“学会了什么”，很大程度上就储存在这些数字之间的组合关系里。

生活类比：调音台上的旋钮

可以把参数想象成调音台上的大量旋钮和推子。

一首歌里可能有人声、鼓点、吉他和背景音。调音师不会简单地把所有声音原样叠在一起，而是会分别调整它们的音量、平衡和效果。

参数像调音台上的旋钮：不同设置会改变最终输出

·人声太弱，就把对应推子调高

·鼓点太强，就把它稍微压低

·整体听起来太闷，就调整某些频段

·不同旋钮组合，会产生不同的最终效果

神经网络中的参数也很像这些控制器。

输入信息经过网络时，参数决定哪些信号应该被放大，哪些应该被削弱，哪些组合值得传给下一层。

区别在于，真实模型里的“旋钮”可能不是几十个，而是几十亿甚至更多。

参数主要包括什么

在常见神经网络中，最基础的两类参数是权重和偏置。

1. 权重（Weight）

权重表示一条连接对结果有多大影响。

假设模型正在判断一张图片里是不是猫。它可能同时接收到“有尖耳朵”“有胡须”“有四条腿”等特征。

如果“尖耳朵”在当前判断中很重要，对应连接的权重就可能更大；如果背景颜色没什么用，对应权重就可能很小，甚至接近零。

权重还可以是负数，表示某个信号会让结果朝相反方向变化。

2. 偏置（Bias）

偏置可以理解为节点自带的一点“基础倾向”。

即使所有输入都很小，偏置也能让节点更容易或更难被激活。它像门槛的微调装置，帮助模型把判断边界移动到更合适的位置。

不同连接具有不同权重，偏置则为节点提供额外调整

输入× 权重，再加上偏置，得到节点接下来要处理的结果。

实际神经网络会同时处理大量输入和节点，但基本思想仍然相同。

一个小例子

假设有一个非常简单的水果判断器，它想判断某个水果是不是苹果，并关注三个特征：

·颜色是否偏红

·形状是否接近圆形

·表面是否光滑

一开始，模型不知道哪个特征更重要，参数可能只是随机数字，所以判断经常出错。

看过许多正确示例后，它可能逐渐发现：对这项任务来说，颜色和形状通常比表面纹理更有帮助。

于是，与颜色和形状有关的权重被调整得更合适。下一次再看到类似水果时，模型就更有可能给出正确答案。

这里的“学习”，并不是模型记住一句“红色圆形就是苹果”的口令，而是大量参数在数据作用下逐渐形成了有用的组合。

参数是怎样来的

参数通常不是工程师逐个填写的。

一个现代模型可能有几十亿、几百亿甚至更多参数，人不可能手工确定每一个数字。

在训练开始时，许多参数会被初始化为较小的随机值。模型先用当前参数做出预测，再把预测和正确答案进行比较，然后根据误差调整参数。

这个过程会反复进行：

1.输入一批数据

2.用当前参数进行计算

3.检查预测错了多少

4.朝着减少错误的方向调整参数

5.用新参数再次尝试

训练通过反复比较误差和调整参数，让模型逐渐改善输出

经过大量循环后，随机数字逐渐变成能完成任务的参数组合。

参数是模型学习的结果，训练则是得到这些参数的过程。

为什么大模型有那么多参数

模型处理的规律越复杂，通常就需要越强的表达能力。

语言模型不仅要处理字词，还要学习语法、语义、上下文关系、知识关联和不同表达风格。大量参数为模型提供了记录复杂模式的空间。

不过，“参数更多”不等于“模型一定更聪明”。模型效果还取决于：

·训练数据的数量与质量

·网络结构是否合适

·训练方法和计算资源

·参数是否真正得到有效利用

·任务与模型能力是否匹配

一个参数量较小但训练良好的专用模型，可能在特定任务上胜过更大的通用模型。

因此，参数量更像汽车的发动机排量：它能反映一部分能力和成本，却不能单独决定整车表现。

参数量会带来什么影响

·训练成本更高：需要更多计算、时间和电力

·存储空间更大：参数必须保存在模型文件中

·运行内存更多：推理时需要把参数载入显存或内存

·部署难度更高：手机、个人电脑和边缘设备可能承受不了

·潜在表达能力更强：在数据和训练充分时，可以学习更复杂的规律

这也是为什么模型量化、剪枝、蒸馏等技术如此重要：它们试图在尽量保留能力的同时，减少模型对存储和计算的需求。

参数和超参数不是一回事

这两个词很像，但来源不同。

参数是模型在训练中自动学到的数字，例如权重和偏置。

超参数通常是在训练前由人或搜索程序设定的配置，例如学习率、批次大小、训练轮数和网络层数。

·参数：模型在训练中“学出来”的

·超参数：用来规定模型“怎么学”的

系列后面还会单独介绍超参数。现在只要先把两者区分开即可。

常见误区

误区一：一个参数对应一条知识

不能简单地说“这个参数保存了法国首都”“那个参数负责写诗”。模型中的能力通常分布在许多参数的共同作用中，一个参数往往没有独立、清晰的自然语言含义。

误区二：参数就是训练数据

参数是从数据中学习出来的数字，不等于原始训练数据本身。不过，模型有时可能记住训练样本中的片段，因此数据隐私、版权和记忆问题仍然值得重视。

误区三：参数量越大，回答一定越准确

参数量只是模型规模的一个指标。数据质量、训练目标、推理方法和任务类型都会影响最终表现。

误区四：模型发布后参数还会自动变化

大多数模型在普通推理时只是使用已经训练好的参数，不会因为和用户聊了几句就自动改写全部参数。如果需要改变参数，通常要经过继续训练、微调或其他专门的更新流程。

为什么下一篇讲“训练”

这一篇我们知道了：参数是模型内部可以调整的数字，权重和偏置是其中最常见的形式。

但新的问题也随之出现：

最初只是随机数字的参数，怎么知道应该往哪个方向调整？

模型如何从一次次错误中，把几十亿个“旋钮”逐渐调到有用的位置？

这就要进入下一篇的核心概念：训练（Training）。

下一篇：训练到底在训练什么，以及模型为什么需要反复看数据、预测、纠错和更新。

一句话总结

参数是模型在训练中学到并保存下来的可调数字；神经网络提供结构，参数塑造行为，而模型的能力就分布在大量参数的组合关系中。

下一个术语：训练（Training）