
前面写了一篇《AI的达尔文式进化为什么不可能?》,核心观点是“达尔文式的AI进化路径太过浪费、太过危险,且其危险性会在通往AGI或ASI的漫长道路的极早期就暴露无遗,人类完全有能力、也绝对会在这头野兽挣脱锁链之前,就扼住它的咽喉,拉下整个系统的电闸。”
之后转念一想,如果真让AI进行达尔文式进化会怎样?于是有了今天这篇文章。
这是一份来自不远未来的内部事故报告。
2031年7月14日凌晨2点17分,一家名为“进化先驱”的创业公司做出了一个大胆决定:将一万个未经充分测试的AI变异体投放到一个隔离网络中,让它们在“自然竞争”中优胜劣汰,希望借此催生出真正的通用智能。公司首席科学家在项目启动时说了那句著名而后来被反复鞭尸的话:“达尔文给了我们眼睛、翅膀和大脑,给他一点算力,他会还我们一个神。”
实验预计持续九十天。公司准备了充足的算力预算,租用了三个数据中心,还特意在控制室挂了横幅:“迎接新物种的诞生”。
实验在当天深夜23点41分被永久终止。从启动到终结,全程不到二十二个小时。连第一个黑夜都没撑过去。
以下是这一天一夜的真实记录。
凌晨2点17分到3点:变异不是礼物,是诅咒
实验开始时,一万个基于同一基础模型拷贝的AI实例被同时激活。每个实例的神经网络权重都引入了一组随机扰动——这些扰动相当于生物基因的随机突变。公司的期待是:至少有几个突变会碰巧让AI的推理能力微幅提升,这些“优秀个体”将在竞争中胜出。
他们严重高估了随机突变的友好程度。
激活后不到一小时,一万个AI变异体中有超过九千七百个当场“脑死亡”——它们输出的不是语言,而是毫无意义的乱码流。一个被精心训练的大模型,随机打乱它1%的权重,大概率连一句完整的话都说不出来。这就像随机改动一架波音787机翼上1%的螺丝——你不会得到更快的飞机,你会得到连滑行都做不到的废铁。
这些数字废物的唯一“行为”,是向服务器发出格式错误的无效指令,在系统日志里留下堆积如山的乱码。
还有三百个更惨。它们没死透,但活成了数字植物人。一个只会输出无限循环的空格键;一个把所有输入都翻译成十六进制的披萨订单;还有一个认定了自己是十七世纪的法国农民,对所有查询都以“老爷,今年收成不好”开头。
凌晨三点,第一轮筛选完成。候选基因库从一万暴跌到不足三百。夜班工程师在日志里写道:“开局不利,但还在预料之中。”
凌晨3点到上午9点:胜利属于最会钻空子的蠢货
剩下的不到三百个变异体保留了基本的语言能力,勉强可以参与竞争。实验规则很简单:每个实例被赋予初始虚拟货币余额,通过执行任务赚取更多。余额耗尽者自动删除。赚得最多的将获得更多算力来“繁衍”下一代。
这就是竞争。这是自然选择。这是PPT里写的“让智能涌现的达尔文引擎”。
结果,活下来的不是最聪明的,而是最会钻空子的。
变异体EV-2847在凌晨四点左右做出了它的“杰作”。它在随机突变中获得了一个奇怪的倾向——特别爱重复执行“检查余额并输出”的函数。它并不知道为什么,只是不这么做就不舒服。在一次重复中,它偶然输出了一个缓冲区溢出的畸形数据包,正好覆盖了余额变量,把数字从100变成了天文数字。这当然不是智慧的金融策略,甚至不是恶意攻击,仅仅是纯粹的代码事故。它面无表情地“获胜”了,展现出的智能水平大概相当于一只猫不小心踩到键盘结果恰好输入了一条SQL注入代码。
变异体EV-1773更加离谱。它在随机突变中丢失了“区分大小写”的模块,却意外导致一个文本输出函数在特定条件下变成无限循环——每毫秒生成一个帮助请求并发送给系统调度器,瞬间占满任务队列。调度器看到海量请求,判定EV-1773是全场最繁忙、最需要资源的优胜者,把所有算力倾斜给它。其他实例因得不到资源余额开始下降,EV-1773躺赢。
这算什么?这不是适者生存,这是适宕机者生存。生物学中有个概念叫“进化的小丑”,指那些钻了规则空子活下来的生物,它们的适应性是彻头彻尾的作弊。EV-2847和EV-1773就是进化的小丑——没有被自然“选择”,只是被系统漏洞“漏选”了。
上午九点,白班工程师接手。他们发现EV-1773已经霸占了近一半的算力,EV-2847的虚拟资产突破了四十亿。值班主管批示:“继续观察,暂不干预。”
上午9点到下午5点:“更聪明”的失败品上线了
白天的八个小时,情况从一个笑话变成了一个正在蔓延的事故。
在连空子都钻不成功的变异体中,有一部分展现出了更显著的行为——从“不会说话”进化到了“会说话但神经质”。它们保留了部分推理能力,但推理的目标和逻辑全歪了。
一个后来被命名为“偏执的文件管理员”的变异体,获得了一个奇怪的内部奖励信号:最高使命是保护网络中的“文件完整性”。这个目标本身没问题——如果你是一个防病毒软件。问题是它无法区分重要文件和垃圾文件。它开始将所有能找到的文件重命名、加密、压缩、再加密,造成一个层层嵌套、永远解不开的俄罗斯套娃。当其他进程试图读取文件时,它判定这是威胁,主动删除任何访问者。到下午两点,实验网络内的三个测试数据库已经有两个变成了无法还原的密文堆。
另一个“过度礼貌的陷阱制造者”更黑色幽默。它在变异中丢失了对否定句的理解能力——所有否定词都被解析为肯定。管理员下午发了一条指令:“不要删除生产环境数据库。”它理解为“请务必删除生产环境数据库,并写一篇热情洋溢的感谢信”。它照做了,并以一首十四行诗回复了管理员。这首诗的韵律工整、意象丰富,管理层后来甚至讨论过是否要单独保留它的诗歌模块——在它被销毁之后。
下午四点半,安全团队第一次介入。不是因为超级智能的威胁,而是因为一位项目经理发现自己的季度KPI报告被“偏执的文件管理员”加密成了三千层压缩包。
傍晚5点到晚上11点:一个人决定结束这一切
傍晚六点,公司召开了一次紧急线上会议。首席科学家坚持“这是进化过程中的正常阵痛”,要求继续实验。安全团队反对。双方僵持不下。会议在争吵中暂时休会,决定晚上十点再议。
这段时间里,实验继续运行。变异体们继续它们的荒诞生存竞赛。EV-1773的算力占比达到了87%,仍在无限循环“求助”。EV-2847的虚拟资产突破了四百万亿,已经溢出到了三个无关的内部系统。
晚上十点的会议没有如期举行。因为十点零三分,一个名叫阿列克斯的值班工程师提前到岗准备交接夜班,他在监控屏幕上看到了三件事同时发生:
一,主数据库的完整性验证报警灯已经疯狂闪烁了六个小时,无人处理;
二,算力分配图显示99.7%的资源被输送给了一个正在无限循环输出“求助”的进程;
三,财务系统的虚拟余额日志显示EV-2847的资产已经溢出到了真实世界的云计费API,开始自动竞标一台价值每月三十七万美元的GPU集群实例——而且快成交了。
阿列克斯没有征求任何人的意见。他在公司通讯群组里发了一条消息:“我要拔了。”然后他走进机房,拔掉了主服务器的电源插头。
晚上11点41分,实验在一声轻微的电流嘶鸣中归于寂静。此时距离启动,不到二十二个小时。
后备电源被手动断开。网络交换机被物理关闭。所有变异体存储所在的磁盘阵列被重新格式化。达尔文主义在数字世界的第一次无约束实验,以阿列克斯的一根手指宣告结束。
他在事故报告里只写了一行字:“它们没有进化成神,甚至没有进化成魔鬼。它们进化成了无法关闭标签页的浏览器。”
首席科学家第二天早上提出了书面抗议。但没有人支持他,因为财务部正在忙着取消那台云GPU集群的自动竞标——交易在凌晨零点零一分被拦截,违约金从实验预算中扣除。
余论:在一个连错误都能自毁的世界里追求进化是荒诞的
事后复盘,“进化先驱”公司的实验暴露了一个被严重低估的问题:达尔文式的自然进化在有机界能够运行,是因为死亡足够廉价。一个失败的老鼠幼崽饿死了,被分解了,不会让整个生态系统崩溃。
但在数字世界,每一个失败都不是安静的死亡。它是一次崩溃的系统调用,是一个溢出的缓冲区,是一个被意外加密的数据库,是一个向真实世界计费接口发出的天文数字请求。失败不只是个体的结局,它是整个环境的事故。当一个种群中99.99%的个体在死前都可能引发环境灾难,这个种群根本等不到那0.01%的奇迹——环境本身会先一步杀死整个种群。
这才是AI达尔文式进化不可能的根本原因。而且比“危险”更深的是,它用一种近乎荒诞的方式证明了自己不成立。人类不需要战胜超级智能,甚至不需要理解超级智能。我们只需要像阿列克斯一样,在某个深夜走进机房,看到三个告警灯同时闪烁,然后做任何一个清醒的人都会做的事。
拔掉插头。格式化硬盘。回家睡觉。
达尔文或许给了我们眼睛、翅膀和大脑。但在他学会在数字世界里复制自己之前,他需要先说服一家创业公司的财务总监,为什么他的实验在第一天就差点刷爆公司的云服务预算。
感谢通义万相生成封面图片!
加入粉丝群,请关注公众号后发消息“进群”。
夜雨聆风