每天一个 AI 术语 05
参数
Parameter · 模型把经验藏进数字的方式

参数:藏在神经网络连接中的可调数字
上一篇我们讲了神经网络。
神经网络由节点、连接和层组成,信息沿着连接一层一层向前传递。
但只有结构还不够。
同样的神经网络,为什么有时把图片认成“猫”,有时却认成“狗”?为什么换一组模型,同一句提示词会得到完全不同的回答?
关键往往不在“连接有没有”,而在“每条连接有多重要”。
这些藏在模型内部、可以被调整的数字,就是今天的主角:参数(Parameter)。
和上一篇的关系
上一篇的关键词是:神经网络 = 节点 + 连接 + 层。
我们提到,每个节点会接收多个输入,并根据不同连接的重要程度进行计算。这个“重要程度”不是一句抽象描述,而是由具体数字表示的。
可以把神经网络想成一张复杂的道路网:网络结构决定道路通向哪里,参数则像每条道路上的通行权重,决定哪一路信息影响更大。
所以,神经网络提供结构,参数决定行为。
一句话解释
参数,是模型在训练过程中不断调整并保存下来的数字,它们决定输入信息如何被组合、放大、削弱,并最终影响模型的输出。
模型“学会了什么”,很大程度上就储存在这些数字之间的组合关系里。
生活类比:调音台上的旋钮
可以把参数想象成调音台上的大量旋钮和推子。
一首歌里可能有人声、鼓点、吉他和背景音。调音师不会简单地把所有声音原样叠在一起,而是会分别调整它们的音量、平衡和效果。

参数像调音台上的旋钮:不同设置会改变最终输出
·人声太弱,就把对应推子调高
·鼓点太强,就把它稍微压低
·整体听起来太闷,就调整某些频段
·不同旋钮组合,会产生不同的最终效果
神经网络中的参数也很像这些控制器。
输入信息经过网络时,参数决定哪些信号应该被放大,哪些应该被削弱,哪些组合值得传给下一层。
区别在于,真实模型里的“旋钮”可能不是几十个,而是几十亿甚至更多。
参数主要包括什么
在常见神经网络中,最基础的两类参数是权重和偏置。
1. 权重(Weight)
权重表示一条连接对结果有多大影响。
假设模型正在判断一张图片里是不是猫。它可能同时接收到“有尖耳朵”“有胡须”“有四条腿”等特征。
如果“尖耳朵”在当前判断中很重要,对应连接的权重就可能更大;如果背景颜色没什么用,对应权重就可能很小,甚至接近零。
权重还可以是负数,表示某个信号会让结果朝相反方向变化。
2. 偏置(Bias)
偏置可以理解为节点自带的一点“基础倾向”。
即使所有输入都很小,偏置也能让节点更容易或更难被激活。它像门槛的微调装置,帮助模型把判断边界移动到更合适的位置。

不同连接具有不同权重,偏置则为节点提供额外调整
输入× 权重,再加上偏置,得到节点接下来要处理的结果。
实际神经网络会同时处理大量输入和节点,但基本思想仍然相同。
一个小例子
假设有一个非常简单的水果判断器,它想判断某个水果是不是苹果,并关注三个特征:
·颜色是否偏红
·形状是否接近圆形
·表面是否光滑
一开始,模型不知道哪个特征更重要,参数可能只是随机数字,所以判断经常出错。
看过许多正确示例后,它可能逐渐发现:对这项任务来说,颜色和形状通常比表面纹理更有帮助。
于是,与颜色和形状有关的权重被调整得更合适。下一次再看到类似水果时,模型就更有可能给出正确答案。
这里的“学习”,并不是模型记住一句“红色圆形就是苹果”的口令,而是大量参数在数据作用下逐渐形成了有用的组合。
参数是怎样来的
参数通常不是工程师逐个填写的。
一个现代模型可能有几十亿、几百亿甚至更多参数,人不可能手工确定每一个数字。
在训练开始时,许多参数会被初始化为较小的随机值。模型先用当前参数做出预测,再把预测和正确答案进行比较,然后根据误差调整参数。
这个过程会反复进行:
1.输入一批数据
2.用当前参数进行计算
3.检查预测错了多少
4.朝着减少错误的方向调整参数
5.用新参数再次尝试

训练通过反复比较误差和调整参数,让模型逐渐改善输出
经过大量循环后,随机数字逐渐变成能完成任务的参数组合。
参数是模型学习的结果,训练则是得到这些参数的过程。
为什么大模型有那么多参数
模型处理的规律越复杂,通常就需要越强的表达能力。
语言模型不仅要处理字词,还要学习语法、语义、上下文关系、知识关联和不同表达风格。大量参数为模型提供了记录复杂模式的空间。
不过,“参数更多”不等于“模型一定更聪明”。模型效果还取决于:
·训练数据的数量与质量
·网络结构是否合适
·训练方法和计算资源
·参数是否真正得到有效利用
·任务与模型能力是否匹配
一个参数量较小但训练良好的专用模型,可能在特定任务上胜过更大的通用模型。
因此,参数量更像汽车的发动机排量:它能反映一部分能力和成本,却不能单独决定整车表现。
参数量会带来什么影响
·训练成本更高:需要更多计算、时间和电力
·存储空间更大:参数必须保存在模型文件中
·运行内存更多:推理时需要把参数载入显存或内存
·部署难度更高:手机、个人电脑和边缘设备可能承受不了
·潜在表达能力更强:在数据和训练充分时,可以学习更复杂的规律
这也是为什么模型量化、剪枝、蒸馏等技术如此重要:它们试图在尽量保留能力的同时,减少模型对存储和计算的需求。
参数和超参数不是一回事
这两个词很像,但来源不同。
参数是模型在训练中自动学到的数字,例如权重和偏置。
超参数通常是在训练前由人或搜索程序设定的配置,例如学习率、批次大小、训练轮数和网络层数。
·参数:模型在训练中“学出来”的
·超参数:用来规定模型“怎么学”的
系列后面还会单独介绍超参数。现在只要先把两者区分开即可。
常见误区
误区一:一个参数对应一条知识
不能简单地说“这个参数保存了法国首都”“那个参数负责写诗”。模型中的能力通常分布在许多参数的共同作用中,一个参数往往没有独立、清晰的自然语言含义。
误区二:参数就是训练数据
参数是从数据中学习出来的数字,不等于原始训练数据本身。不过,模型有时可能记住训练样本中的片段,因此数据隐私、版权和记忆问题仍然值得重视。
误区三:参数量越大,回答一定越准确
参数量只是模型规模的一个指标。数据质量、训练目标、推理方法和任务类型都会影响最终表现。
误区四:模型发布后参数还会自动变化
大多数模型在普通推理时只是使用已经训练好的参数,不会因为和用户聊了几句就自动改写全部参数。如果需要改变参数,通常要经过继续训练、微调或其他专门的更新流程。
为什么下一篇讲“训练”
这一篇我们知道了:参数是模型内部可以调整的数字,权重和偏置是其中最常见的形式。
但新的问题也随之出现:
最初只是随机数字的参数,怎么知道应该往哪个方向调整?
模型如何从一次次错误中,把几十亿个“旋钮”逐渐调到有用的位置?
这就要进入下一篇的核心概念:训练(Training)。
下一篇:训练到底在训练什么,以及模型为什么需要反复看数据、预测、纠错和更新。
一句话总结
参数是模型在训练中学到并保存下来的可调数字;神经网络提供结构,参数塑造行为,而模型的能力就分布在大量参数的组合关系中。
下一个术语:训练(Training)
夜雨聆风