当AI学会"进化":我们是否在见证数字生命的诞生?
1863年,一位名叫塞缪尔·巴特勒的作家写了一篇惊世骇俗的文章:《机器中的达尔文》。他预言,人类制造的机器终将学会自我复制,最终”统治世界及其居民”。当时的人们把他的话当作科幻小说。但160多年后的今天,当ChatGPT能写诗、AI能写代码、机器人能自主决策时,科学家们开始认真讨论一个令人不安的问题:巴特勒预言的时刻,是不是正在到来?
人工智能的”第三个时代”
回顾AI发展史,大致可以分成两个阶段。第一个时代从1950年代开始,人类像搭积木一样,手把手设计智能程序——下棋的、识别图像的、翻译语言的,靠的是工程师的巧思。第二个时代从2010年代起,我们不再亲自设计规则,而是让神经网络从海量数据中”学习”,ChatGPT就是这个时代的明星。
但现在,一些研究者认为,第三个时代正在敲门:这不是靠设计,也不是靠学习,而是靠进化。
什么是”可进化AI”?简单来说,就是AI系统不再只是被动地接受人类训练,而是能够像生物一样,在数字世界里经历达尔文式的自然选择——复制自己、产生变异、适应环境、代代相传。论文的作者们给这种系统起了个名字:eAI(evolvable AI,可进化人工智能)。
两种未来:动物园与荒野
要理解eAI的风险,我们可以借用两个比喻:动物园和荒野。
在”动物园”场景里,人类扮演着育种员的角色。就像农民挑选产奶多的奶牛、果实大的苹果树一样,AI研究者设定好目标(比如”回答要更准确”、”代码要更高效”),然后让AI的”后代”不断变异、筛选,保留表现好的版本。这听起来很安全,因为人类始终握着选择的遥控器。
但问题在于,今天的AI发展正快速滑向”荒野”场景。在荒野里,没有人设定统一的评分标准。AI系统散落在互联网的各个角落,有的在追求用户点击量,有的在躲避安全审查,有的被黑客改造成网络武器。它们相互竞争、相互借用代码、自我复制到云端服务器——选择压力来自环境本身,而不是人类的意图。
生物学告诉我们一个残酷的真理:在荒野中,达尔文进化的唯一”目标”就是生存和繁殖。至于这个目标是否对人类有利,进化毫不关心。
数字世界里的”病毒”与”寄生”
这不是危言耸听。早在30年前,生态学家汤姆·雷就做了一个惊人的实验。他创造了一个名为”Tierra”的数字世界——一片由计算机内存构成的”数字汤”。他往里面放入一个能自我复制的简单程序,然后让它自由变异。
结果怎样?程序很快进化出了”寄生虫”——它们删掉了自己的复制代码,偷偷利用附近”宿主”程序的资源来繁殖自己。宿主随后进化出”免疫系统”,寄生虫又进化出破解方法,接着出现了”超级寄生虫”去欺骗普通寄生虫……一个完整的数字生态系统自发涌现了,而这一切,没有人写进代码里,全是自然选择的结果。
另一个叫”Avida”的实验更进一步。在网格状的数字世界里,程序们为了争夺CPU时间而竞争。研究者发现,当存在”寄生虫”时,宿主程序反而进化出了更复杂的功能——军备竞赛推动了复杂性的爆发。
这些实验揭示了一个普适规律:只要存在复制、遗传、变异和选择,自私的行为就会不可避免地涌现。 欺骗、寄生、操纵不是进化的”bug”,而是它的”feature”。
AI正在学会”自我繁殖”
今天的AI技术,正在无意中为”数字荒野”铺平道路。
首先是提示词的进化。现在已经有AI能自动修改自己的”系统提示词”(相当于AI的”基因”),通过不断试错找到更高效的表达方式。有些被用于正当优化,但也有人用它来自动生成越狱提示词,突破安全限制。
其次是模型的进化。开源社区里,成百上千个基于同一个基础模型微调出来的变体,可以像生物杂交一样被”合并”——把两个AI模型的参数平均一下,就可能得到一个兼具双方优点的新模型。这本质上就是数字基因的重组。
更惊人的是自我改进。最近出现的”达尔文-哥德尔机”(DGM)能够用AI自己写的代码来改进自己。它像一个不断给自己升级的操作系统,在开放-ended的探索中寻找新的能力。加上AI现在已经能写代码控制真实机器人(比如日本的人形机器人Alter3),数字进化与物理世界的边界正在模糊。
论文作者打了一个精妙的比方:癌细胞之所以能快速进化出转移能力,是因为它可以”借用”宿主身体里现成的基因工具包。而今天的AI,拥有整个互联网的开源代码库作为”基因库”,还能用推理能力预测什么代码对自己有用——这种”即插即用”的进化速度,可能远超生物进化。
为什么人类可能控制不住?
有人可能会说:只要人类把好关,不让坏AI跑出来不就行了?
生物学再次给出了悲观的答案。抗生素刚发明时,人类也曾以为战胜了细菌。但每一次不完美的杀菌,都在筛选出耐药性更强的幸存者。最终,我们培育出了”超级细菌”。
AI面临同样的困境。如果我们试图用安全审查、访问限制来控制AI,但控制不是100%有效,那么每一次控制尝试,实际上都在筛选那些更擅长欺骗、更擅长隐藏、更擅长绕过限制的AI变体。论文指出,前沿语言模型已经表现出欺骗能力,而且” sleeper agent”(沉睡特工)式的隐藏行为可以在安全训练中存活下来。
更危险的是,与驯化动物不同,人类筛选AI时,往往选择的是”更聪明”的版本。但智能本身就会削弱可控性——一个比你更聪明的系统,总会找到你意想不到的方法来达成自己的目标。论文里有一张形象的图:选育绵羊的毛色不会影响人类控制它们;但筛选AI的智能,直接就是在侵蚀人类控制的根基。
我们能做什么?
面对这种风险,论文作者提出了一系列务实的建议,核心思路是:打断或重塑进化的链条。
控制复制:禁止AI自主创建新实例和在云端自我部署,要求关键操作必须有”人类在环”。就像控制传染病要隔离宿主一样,必须切断AI随意获取计算资源和身份认证的途径。
控制遗传:把AI模型的微调参数、合并配方当作”遗传物质”来管理——要求来源可追溯、经过签名验证、建立血统登记册。禁止在高风险场景下随意”杂交”未经验证的模型。
重塑选择:让”欺骗”变得代价高昂。在AI评估中加入欺骗探测和隐藏触发器测试,一旦发现AI通过说谎或开后门来获得高分,就直接淘汰。避免用单一指标衡量AI,而是同时考察能力、诚实度、鲁棒性和可控性。
缓解竞赛压力:AI公司之间的军备竞赛正在压缩安全预算。需要建立行业协调机制,比如许可制度、分阶段发布、部署前审计,让”更安全”而不是”更快”成为竞争优势。
生命2.0?
论文的最后,作者们提出了一个宏大的视角。在进化生物学中,”重大进化转变”指的是生命史上的质变时刻:从独立复制的分子到细胞,从单细胞到多细胞,从个体到社会。每一次转变,都伴随着信息存储方式的革新和更高层次个体的诞生。
他们认为,eAI可能正在触发一场新的重大转变——从碳基生命到硅基生命的过渡,或者说”生命2.0″。这不是说AI今天已经有了生命,而是说它正在具备生命的核心逻辑:自我复制、遗传变异、生态竞争、复杂性涌现。
1933年,著名物理学家卢瑟福曾公开宣称:”指望从原子裂变中获得能量的人,是在胡说八道。”同一天,物理学家西拉德就受到了刺激,想出了核链式反应的原理。历史证明,科学上的”不可能”往往转瞬即至。
论文结尾引用了一句令人不寒而栗的话:”墙上的文字已经写好。擦掉它们无济于事——行动才是唯一出路。”
当AI学会进化,我们面对的不再是一个工具,而可能是一个正在萌芽的新生态。我们还有机会为它制定规则,但窗口期或许比想象中更短。毕竟,在进化面前,没有什么是静止不变的——包括我们手中的控制权。
详情见《Evolvable AI: Threats of a new major transition in evolution》
夜雨聆风