乐于分享
好东西不私藏

AI什么都懂,是因为它把知识都背下来了吗?答案出乎意料

AI什么都懂,是因为它把知识都背下来了吗?答案出乎意料

今天跟团队伙伴开会,有个小伙伴提到了一个问题

“AI 的那些知识,是存储在模型里的吗?”

因为这个答案真的很有趣却又反常识,所以,我写了这篇来详细回答一下,先说答案

AI(大语言模型)不存储任何知识。

是的,即使你看到AI非常流畅的背出唐诗三百首,甚至能够直接输出某个传记全文。

但但但是,这些内容并没有存在大模型中,一丝一毫都没有。

啊,这就非常神奇了,如果没有记下来,没有存下来,那AI是如何知道要说什么呢?为什么看起来像是他完全记得,全部背下来了一样。

如果你也很好奇,那稍安勿躁,我们得先了解一下AI(大语言模型)是如何被练成的。

AI的训练方式,虽然也是用了大量的书本、大量的知识。

但是,AI的学习方式并不像人一样,拿着一本一本书认真阅读、做笔记、背诵、记忆。

AI训练和学习的方式,从头到尾,练的都不是“记住”知识,而是“预测下一个词”。

你可以把大模型想象成一个规模极其夸张的“文字接龙机器”。

训练时,工程师会给它看海量文本:

新闻、小说、论文、网页、代码、对话、百科……

然后不断让它做一件事:

根据前面这段文字,猜测,下一个最有可能出现的词是什么。

比如:

“床前明月光,疑是地上___”

它要猜“霜”。

再比如:

“秦始皇统一六国的时间是公元前___年”

它要猜“221”。

AI不是在“脑子”里翻一本历史书,也不是从某个“知识仓库”里把答案取出来。

它只是根据自己在训练过程中形成的海量参数关系,判断:

在这样的前文后面,什么词出现的概率最高。

这就是大模型最底层的原理。

就像视频中一样,这就是模型输出内容的最底层的原理,根据前文,输出后边出现的可能性最大的词。

已关注

关注

重播 分享

那这个概率词是怎么算出来的呢?

你看下方这个视频,就是预测下一个词的时候模型内部发生的过程简化示意。

视频里出现了一些专业名词,但是你不用关心,你只需要知道,我们看到的文字其实是被转化成了一串非常长的数字编码。

模型处理文字时,并不是直接处理“字面上的字”,而是先把文本切成一个个“词元”,再转成数字表示。

在后续训练中,模型会逐渐学到:哪些表达经常一起出现,哪些概念彼此接近,哪些上下文后面更可能接什么内容。

所以在模型内部,语义相近的表达,往往会形成更接近的内部表示。

比如“快乐”和“happy”,虽然字面不同,但在很多语境里它们可能会被模型处理成相近的含义;在模型的空间中,这两个词的距离更近。

就像是视频中,当你输入“你是谁?”时,模型也不是去某个知识库里把答案“取出来”,而是根据上下文和训练中学到的参数关系,计算出下一个词最可能是什么。

如果“我”在这个位置的概率最高,它就输出“我”,然后继续预测下一个词,直到整句话结束。

已关注

关注

重播 分享

所以,大模型内部真正存在的,是一句句文本,也不是一段段资料,更不是一个可以打开查看的“数据库”。

在模型中存在的其实是一种非常复杂的参数结构。

大模型记住的不是“内容本身”,是内容之间的统计规律。

这就像一个人听了无数遍中文之后,慢慢掌握了中文的语感、结构、搭配、逻辑。

当你说出一句话的前半句时,他已经大概知道后半句会往哪个方向走。

大模型也是一样。

它不是把《唐诗三百首》一首一首存起来了,

而是在海量训练中,学会了“唐诗这种文本一般长什么样”“李白的语言通常是什么感觉”“床前明月光后面极大概率会接什么”。

所以它看起来像背下来了。

但本质上,他没有“回忆”知识,他是在靠感觉重新:生成文本。

这也是为什么,大模型有时候会让人产生一种强烈错觉:

你会觉得它脑子里一定有一个超级图书馆。

你问什么,它就从里面精准翻出来。

但其实不是。

它更像一个经过极端训练之后,拥有超强语言压缩能力和模式拟合能力的系统。

它不是把互联网装进脑子里了。

而是把互联网上海量文本里那些“规律”,压缩进了参数里。

所以,AI模型不是知识仓库,更没有记住全部世界知识。

他更像是:语言规律机器。

那既然是概率,那为什么AI有时候又能把一些内容说得那么准,甚至像是原文复述?说的那么对呢?

这因为当某段内容在训练数据里出现得足够多、足够稳定、足够标准化的时候,

这些模式就会被“压”得非常牢,这些词的前后出现概率已经高到几乎“固定”了。

比如:

  • 常见古诗

  • 著名定义

  • 高频历史事实

  • 固定格式的经典文本

  • 大量公开传播的名句和段落

这些内容由于分布太广、重复太多、结构和概率太稳定,所以模型就很容易在生成时“猜”出来。

所以,AI只是看似在背答案。其实,他压根不知道对与错,他只知道,下一个词,大概率就是这个!

理解这一点之后,你就会明白另外一件更重要的事:

为什么 AI 会一本正经地胡说八道。

因为它的目标,从来不是“说真话”,而是“说得像真的”,说的趋近于真的。

这句话非常关键。

因为诗词后续有标准答案,但是更多的问题是没有标准答案的,只要预测的近似于正常回答,既可以得到高分。

所以在训练的时,大模型得到的核心目标是:让输出在语言上足够自然、连贯、符合上下文。

而遗憾的是“语言上是对的”,不等于“事实上是真的”。

当它面对一个自己没有学扎实、或者语境不够明确的问题时,

它依然甚至必须努力往下生成。

没有见过答案,那就只能根据内部已有参数的概率,预测出下一个词,最终给你一个“看起来很合理”的回答。

于是,幻觉出现了。

比如它可能会:

  • 编一个不存在的论文

  • 造一个听起来很像真的案例

  • 杜撰一本并不存在的书

  • 给你一个逻辑顺滑但事实错误的解释

这不是因为它故意骗你。

而是因为它本质上是在做概率续写。 他真的不知道对错~

在这里,提出一个问题?那既然大模型本身不存储知识,他也不懂知识,只是在预测。那我们还让 AI 做知识库问答、查企业资料、读内部文档,这AI给出的回答还靠谱吗?

3

2

1

即使用了知识库,AI回答的也不一定靠谱。

只是有了知识库之后,AI可以更!大!概!率!输出正确的答案。(因为外部资料可以改变它后续输出的概率分布。)

但,并不一定能得到正确的答案。

比如,当前时间,现在是几月几日。

如果不联网,AI是一定不知道当前时间的,如果硬是要问,AI只能瞎说一通,或者拒绝回答。

但是如果你通过外部工具告诉他现在的时间,当你再问到时间的时候,他才更大概率的能回答正确。

下图中实际时间是4月20日,但是我给了他6月6日的前文,那么 他就一定会输出:6月6日。

因为在这个语境下,6月6日的出现概率更高。

所以,无关正确,无关记忆,全是概率。

而输入的文本,提问的问题,就极大的影响了后续输出的每个词出现的概率。

这也是为什么这两年提示词工程、RAG、知识库、工作流这些东西这么重要,也是为什么即使不一定准确,但是知识库依然是有价值的:就是因为更准确的引导内容,才更能提高后续回答的正确概率。

这是根本。

回到最开始那个问题:

AI 的知识,是存储在模型里吗?

很明确:不是。

模型里没有一篇篇文章,也没有一本本书,更没有一个整整齐齐的知识文件柜。

模型里只有参数。

而参数里保存的,是海量文本被压缩之后形成的关联、权重、模式和概率结构。

AI 只是看起来像是“记得”,

其实它是在“生成”。

看起来像是在“调用知识”,

其实它是在“沿着最有可能的路径,把语言继续写下去”。

这就是为什么它如此强大。

同时也是为什么,它并不可靠到可以被无条件相信。

在这里,我要插一句,很多人,非常轻信于AI的回答,这一点我在我爸的身上看到了非常明显的案例,关于购物决策,豆包的回答甚至能够影响他60%以上的决策。

这是非常恐怖的,

因为,你以为得到的是豆包结合了全网知识给出的公正回答,

但其实,你可能得到的是被精心设计的答案。

AI不是一个会背书的万事通大脑。

它只是一个被训练到极致的概率生成系统。

理解这一点,才算真正理解了大语言模型。

我是梦飞,我们下次见~

往期推荐

阿里“悟空”用起来太爽了,已经开始在钉钉里抢活干了

继谷歌NotebookLM之后,AI知识库迎来了“中国版本答案”

别再给 AI 打黑工了!从流水线普工变身短片大导演。

实测DuMate:龙虾热度退潮,但大洗牌才刚刚开始

终于测到一个不像玩具的AI Agent了

阿里终出手!实测JVS Claw:被全程可视化“龙虾”惊艳到了