AI要生娃了?60%概率2028年机器自己造自己,四年暴涨1440倍大佬坐不住了!-夜雨聆风

AI要生娃了?60%概率2028年机器自己造自己,四年暴涨1440倍大佬坐不住了!

这半年，有个判断在AI圈子里彻底炸锅了。

我们默认AI的未来是由OpenAI、Google、Anthropic这些巨头掌控的，一旦OpenAI发布点什么新模型，Google、Anthropic就会立马跟上。但很少有人意识到：真正决定“谁能先跑起来”的，往往不是这些巨头的发布会，而是那些看不见的工程化突破。

说个实在的，Jack Clark扔出了两个重磅判断：递归自我改进的概率和工程化就绪。结果你看Clark的那份分析报告、数据清单，几乎没人真正在认真消化。

你会发现，大家在讨论AGI，在猜测时间线，在担心安全，但没人真正动手把这些能力集成进生产系统，更没人把它写进技术路线图，或者部署到核心的研究流水线里。

因为开发者不傻，一个技术路线靠不靠谱，不是看谁吹得响，而是看一线的工程师用不用它。

这也是为什么，现在很多前沿的实验室、产品路线图、技术栈，都开始悄悄转向实打实的工程指标了。真正在硅谷，有个趋势正在默默变成“标配”——递归自我改进。

这场AI能力赛，跑到今天，喊口号的不在少数，真摸出门道的没几个。但Clark的判断，从一开始就不是靠拍脑袋的。

这种能力是“慢慢磨上来”的，Clark不吹牛，但数据每次发布都一步一个脚印，特别是今年的预测，一口气从工程化摆到了递归改进全集，把METR时间轴、SWE-Bench、CORE-Bench、MLE-Bench这些硬核的基准一个个啃下来。

你可以去问一个一线的AI工程师：要搭一个能自动化研究、能自我改进、能工程落地的系统，你默认选哪套路线？

不出意外，他会说：工程化优先，看Clark那套，甚至已经变成一种行业共识了——AI要真正落地、要搞定复杂系统，首选就是看这些硬指标。

为什么一线开发者开始重视工程基准？主要在于：METR时间轴从2022年的30秒干到2026年的12小时，SWE-Bench从2%飙到93.9%，CORE-Bench直接干到95.5%。别小看这三个数字，对写代码的来说，这比什么“模型智商嘎嘎强”“参数突破某某新高”实在多了。

我们去年还在堆算力来刷榜，但那个很贵，还不稳定，搞一套大模型训练下来，光电费账单就肉疼。

但转用工程化指标之后，几个硬优势直接立马凸显出来：第一：任务拆解详细，执行路径精准，用来搞代码生成、论文复现、Kaggle竞赛完全够用。第二：复杂任务能拆解成子模型，做对齐研究调用安全模型，调度自由组合。第三：我们内部测过，同样的研究任务，Claude Mythos比上一代快的不止一倍。第四：完全开源可控：用本地版本可以微调、可以部署，系统可控度远远大于黑盒API。

有个朋友在做生产端的AI研究系统，他跟我说：“用这套工程化方案，意味着我可以不看OpenAI脸色，API断了我还能跑。”

讲个真事，Claude刚出来那会儿，我们团队有人很兴奋地搭了个Demo。单轮对话不错，但一上复杂任务链，系统就崩了。

比如研究流程里有“读论文-写代码-跑实验-分析结果”四步，AI经常走到第三步就卡住，不是乱改参数，就是直接报错退出。

后来换了Claude Opus 4.6，同样的流程，不但AI能走顺了，连输出质量的稳定性都提高很多。

你说这是不是运气？不是，是工程化底座不一样。

Anthropic这届的路线，明显比硅谷那批要更接地气：工程底座更扎实，安全对齐天然强，SWE-Bench、CORE-Bench、MLE-Bench相关的积累多，开源版本迭代快、文档清楚，特别好上手。

别扯什么“AGI概念”，就说工程师的日常工作：我们要的是自动写代码、自动跑实验、自动搞对齐，这些他们做到了。

很多人会说模型性能还不足、创意太稀缺，但真不能全信，尤其是那种空谈的预测。

比如Clark说的60%概率，这哥们是基于当前技术趋势加行业数据的硬核分析，讲的是工程实际，并不是靠嘴皮子拼热度。别忘了，Gemini已经在700个Erdős数学问题里解出了有原创性的答案，这说明创造力组件也在突破。

在PostTrainBench这些测试上，Anthropic几乎全线压住了其他家，拿下实际应用冠军。这就不是靠“概念炒作”炒出来的，而是靠Anthropic团队硬堆出的工程。

在的基准测试中，Claude系列共有多个模型上榜，覆盖代码、研究，是业界里最全面、最实用的一套，足以见其工程底蕴有多深。就连Recursive Superintelligence那家新公司，刚拿了5亿美元融资，也是看准了这波自动化AI研究的浪潮。

这几年大模型已经走过“聊天工具”“代码助手”“研究助理”的阶段，今天这个概念火明天那个产品热，一堆项目风光过，但真正的问题是：有没有一个能递归改进、能自我进化、能工程落地的硬核方案？

你可能还在感慨GPT-5多么神秘，但我告诉你：递归自我改进不会等OpenAI慢慢发布产品。OpenAI说要到2026年9月才达到“AI研究实习生”水平，2028年才有完整自动化研究员，但Clark说的可是2028年底前就有60%概率出现RSI。

行业现在要的，是一套能自动化、能自我改进、能规模化的“真家伙”。在硅谷，一批搞AI安全的技术团队已经默认它是“标配”，Anthropic专门成立了The Anthropic Institute来研究一旦RSI发生该怎么治理；在GitHub，越来越多开发者和云平台把它嵌成了底层能力。

别忘了那个对齐衰减的警告：如果初始准确率99.9%，经过50代降到95.1%，500代后只剩60.5%。治理窗口正在缩窄，2028年就在眼前，这不是演习。