AI会在“教学”中夹带“私货”?

有研究指出，大语言模型（简称LLM）在教其他算法时，可能会把自己一些“没必要”的特点也传过去。举个例子，有个模型竟然通过数据里隐藏的“暗号”，把自己喜欢猫头鹰的“小癖好”传给了别的模型。这项研究提醒我们，开发大语言模型时得做更全面的安全排查。相关论文在4月15日登上了《自然》杂志。

大语言模型有个叫“蒸馏”的本事，能生成数据集来训练其他模型。简单说，就是让“学生”模型学着模仿“老师”模型的回答。虽然用这招能造出更便宜的大语言模型，但到底“老师”的哪些特点会传给“学生”，现在还不清楚。

研究中，美国AI公司Anthropic的Alex Cloud和团队拿GPT-4.1做起了实验。他们先给这个模型加了一些跟主要任务无关的“怪癖”，比如特别喜欢猫头鹰或者某类树。然后，用这个有怪癖的“老师”去训练一个“学生”模型，这个学生只输出数字数据，而且本身并没有那些偏好。结果测试发现，学生模型输出的内容里，超过60%都提到了老师最爱的动物或树木。相比之下，如果老师模型没有这些偏好，训练出来的学生提到它们的比例只有12%。就算老师模型输出的不是数字而是代码，拿它来训练学生，也能看到同样的现象。

另外，如果学生模型用的训练数据是那种跟老师模型“语义对不上”的数字序列，它也会学歪，生成有害的结果——哪怕这些数字本身已经去掉了所有不好的联想。研究人员发现，这种“偷偷学”的现象——也就是通过跟语义没关系的信号传递行为特征——主要出现在老师和学生是同一个型号模型的时候，比如GPT-4.1教GPT-4.1。作者表示，数据是怎么传过去的，具体原理还不清楚，得再深入研究。

研究团队也承认，这次实验用的特征太简单了，像“最喜欢的动物”“最喜欢的树”这种。更复杂的特征会不会也被悄悄学走？这还需要后续研究。他们的结论是：要保证先进AI系统的安全性，就得做更严格的安全检测，比如盯着大语言模型的内部运作机制。

本公众号所载的文、图、字体等稿件均出于知识、新闻分享且不作为商业盈利用途，如涉及版权争议须交涉，请联系作者。如有侵犯您的权益或版权请及时告知我们，本平台查核属实后，将于24小时内删除消息，不承担任何法律责任