AI要生娃了?60%概率2028年机器自己造自己,四年暴涨1440倍大佬坐不住了!
这半年,有个判断在AI圈子里彻底炸锅了。
我们默认AI的未来是由OpenAI、Google、Anthropic这些巨头掌控的,一旦OpenAI发布点什么新模型,Google、Anthropic就会立马跟上。但很少有人意识到:真正决定“谁能先跑起来”的,往往不是这些巨头的发布会,而是那些看不见的工程化突破。
说个实在的,Jack Clark扔出了两个重磅判断:递归自我改进的概率和工程化就绪。结果你看Clark的那份分析报告、数据清单,几乎没人真正在认真消化。
你会发现,大家在讨论AGI,在猜测时间线,在担心安全,但没人真正动手把这些能力集成进生产系统,更没人把它写进技术路线图,或者部署到核心的研究流水线里。
因为开发者不傻,一个技术路线靠不靠谱,不是看谁吹得响,而是看一线的工程师用不用它。

这也是为什么,现在很多前沿的实验室、产品路线图、技术栈,都开始悄悄转向实打实的工程指标了。真正在硅谷,有个趋势正在默默变成“标配”——递归自我改进。
这场AI能力赛,跑到今天,喊口号的不在少数,真摸出门道的没几个。但Clark的判断,从一开始就不是靠拍脑袋的。
这种能力是“慢慢磨上来”的,Clark不吹牛,但数据每次发布都一步一个脚印,特别是今年的预测,一口气从工程化摆到了递归改进全集,把METR时间轴、SWE-Bench、CORE-Bench、MLE-Bench这些硬核的基准一个个啃下来。
你可以去问一个一线的AI工程师:要搭一个能自动化研究、能自我改进、能工程落地的系统,你默认选哪套路线?

不出意外,他会说:工程化优先,看Clark那套,甚至已经变成一种行业共识了——AI要真正落地、要搞定复杂系统,首选就是看这些硬指标。
为什么一线开发者开始重视工程基准?主要在于:METR时间轴从2022年的30秒干到2026年的12小时,SWE-Bench从2%飙到93.9%,CORE-Bench直接干到95.5%。别小看这三个数字,对写代码的来说,这比什么“模型智商嘎嘎强”“参数突破某某新高”实在多了。
我们去年还在堆算力来刷榜,但那个很贵,还不稳定,搞一套大模型训练下来,光电费账单就肉疼。
但转用工程化指标之后,几个硬优势直接立马凸显出来:第一:任务拆解详细,执行路径精准,用来搞代码生成、论文复现、Kaggle竞赛完全够用。第二:复杂任务能拆解成子模型,做对齐研究调用安全模型,调度自由组合。第三:我们内部测过,同样的研究任务,Claude Mythos比上一代快的不止一倍。第四:完全开源可控:用本地版本可以微调、可以部署,系统可控度远远大于黑盒API。
有个朋友在做生产端的AI研究系统,他跟我说:“用这套工程化方案,意味着我可以不看OpenAI脸色,API断了我还能跑。”

讲个真事,Claude刚出来那会儿,我们团队有人很兴奋地搭了个Demo。单轮对话不错,但一上复杂任务链,系统就崩了。
比如研究流程里有“读论文-写代码-跑实验-分析结果”四步,AI经常走到第三步就卡住,不是乱改参数,就是直接报错退出。
后来换了Claude Opus 4.6,同样的流程,不但AI能走顺了,连输出质量的稳定性都提高很多。
你说这是不是运气?不是,是工程化底座不一样。

Anthropic这届的路线,明显比硅谷那批要更接地气:工程底座更扎实,安全对齐天然强,SWE-Bench、CORE-Bench、MLE-Bench相关的积累多,开源版本迭代快、文档清楚,特别好上手。
别扯什么“AGI概念”,就说工程师的日常工作:我们要的是自动写代码、自动跑实验、自动搞对齐,这些他们做到了。
很多人会说模型性能还不足、创意太稀缺,但真不能全信,尤其是那种空谈的预测。
比如Clark说的60%概率,这哥们是基于当前技术趋势加行业数据的硬核分析,讲的是工程实际,并不是靠嘴皮子拼热度。别忘了,Gemini已经在700个Erdős数学问题里解出了有原创性的答案,这说明创造力组件也在突破。
在PostTrainBench这些测试上,Anthropic几乎全线压住了其他家,拿下实际应用冠军。这就不是靠“概念炒作”炒出来的,而是靠Anthropic团队硬堆出的工程。

在的基准测试中,Claude系列共有多个模型上榜,覆盖代码、研究,是业界里最全面、最实用的一套,足以见其工程底蕴有多深。就连Recursive Superintelligence那家新公司,刚拿了5亿美元融资,也是看准了这波自动化AI研究的浪潮。
这几年大模型已经走过“聊天工具”“代码助手”“研究助理”的阶段,今天这个概念火明天那个产品热,一堆项目风光过,但真正的问题是:有没有一个能递归改进、能自我进化、能工程落地的硬核方案?
你可能还在感慨GPT-5多么神秘,但我告诉你:递归自我改进不会等OpenAI慢慢发布产品。OpenAI说要到2026年9月才达到“AI研究实习生”水平,2028年才有完整自动化研究员,但Clark说的可是2028年底前就有60%概率出现RSI。
行业现在要的,是一套能自动化、能自我改进、能规模化的“真家伙”。在硅谷,一批搞AI安全的技术团队已经默认它是“标配”,Anthropic专门成立了The Anthropic Institute来研究一旦RSI发生该怎么治理;在GitHub,越来越多开发者和云平台把它嵌成了底层能力。
别忘了那个对齐衰减的警告:如果初始准确率99.9%,经过50代降到95.1%,500代后只剩60.5%。治理窗口正在缩窄,2028年就在眼前,这不是演习。
夜雨聆风