有研究指出,大语言模型(简称LLM)在教其他算法时,可能会把自己一些“没必要”的特点也传过去。举个例子,有个模型竟然通过数据里隐藏的“暗号”,把自己喜欢猫头鹰的“小癖好”传给了别的模型。这项研究提醒我们,开发大语言模型时得做更全面的安全排查。相关论文在4月15日登上了《自然》杂志。

大语言模型有个叫“蒸馏”的本事,能生成数据集来训练其他模型。简单说,就是让“学生”模型学着模仿“老师”模型的回答。虽然用这招能造出更便宜的大语言模型,但到底“老师”的哪些特点会传给“学生”,现在还不清楚。
研究中,美国AI公司Anthropic的Alex Cloud和团队拿GPT-4.1做起了实验。他们先给这个模型加了一些跟主要任务无关的“怪癖”,比如特别喜欢猫头鹰或者某类树。然后,用这个有怪癖的“老师”去训练一个“学生”模型,这个学生只输出数字数据,而且本身并没有那些偏好。结果测试发现,学生模型输出的内容里,超过60%都提到了老师最爱的动物或树木。相比之下,如果老师模型没有这些偏好,训练出来的学生提到它们的比例只有12%。就算老师模型输出的不是数字而是代码,拿它来训练学生,也能看到同样的现象。

另外,如果学生模型用的训练数据是那种跟老师模型“语义对不上”的数字序列,它也会学歪,生成有害的结果——哪怕这些数字本身已经去掉了所有不好的联想。研究人员发现,这种“偷偷学”的现象——也就是通过跟语义没关系的信号传递行为特征——主要出现在老师和学生是同一个型号模型的时候,比如GPT-4.1教GPT-4.1。作者表示,数据是怎么传过去的,具体原理还不清楚,得再深入研究。
研究团队也承认,这次实验用的特征太简单了,像“最喜欢的动物”“最喜欢的树”这种。更复杂的特征会不会也被悄悄学走?这还需要后续研究。他们的结论是:要保证先进AI系统的安全性,就得做更严格的安全检测,比如盯着大语言模型的内部运作机制。
本公众号所载的文、图、字体等稿件均出于知识、新闻分享且不作为商业盈利用途,如涉及版权争议须交涉,请联系作者。如有侵犯您的权益或版权请及时告知我们,本平台查核属实后,将于24小时内删除消息,不承担任何法律责任
夜雨聆风