
过去一年,AI 编程领域出现了几个看似分散、实则高度同构的现象。
DeepMind 的 AlphaEvolve 用大语言模型自动进化算法,刷新了数学和工程领域的一些纪录;Karpathy 开源 autoresearch,让 AI agent 在固定计算预算下自动修改训练代码、跑实验、比较指标; Ralph Loop 命令用极其朴素的循环,让模型不断面对错误、修复错误,直到任务完成;而 /goal 这类命令,则把一次性对话变成了持续朝目标推进的执行过程。
表面上看,这些东西不在同一层级。AlphaEvolve 像科研。autoresearch 像自动实验平台。Ralph Loop 像工程师的小技巧。/goal 像一个命令行功能。
但如果把它们的外壳剥掉,会发现它们指向的是同一个方向:
AI 发生剧变的真正拐点,是人类开始设计“会用实践论”的 AI。
也就是说,AI 不再只是坐在文本世界里回答问题,而是进入一个实践闭环:
提出方案。作用于真实环境。获得反馈。修正认识。再次实践。再次修正。不断循环。
这件事的意义,可能比“模型参数更多”“上下文更长”“推理能力更强”还要深。
因为它意味着,AI 正在从“会说”走向“会做”,从“会生成”走向“会改进”,从“静态知识系统”走向“实践—认识—再实践—再认识”的动态系统。
真正的变化: AI 开始能在实践中修正自己
过去我们使用 AI 的主要方式,是提问和生成。
写一段代码。解释一个概念。生成一篇文章。补全一个函数。给一个商业建议。设计一个网页。
这当然有用,但它本质上还是“单轮输出”。
AI 根据已有知识、上下文和概率模式,给出一个看起来合理的答案。这个答案是否真的有效,主要靠人判断。它有没有跑通,有没有创造价值,有没有解决真实问题,往往不在模型内部闭环里。
而 AlphaEvolve、autoresearch、Ralph Loop、/goal 这一类东西,真正改变的是:
AI 的输出不再停留在语言层面,而是被放进现实或准现实环境中检验。
代码要跑。测试要过。指标要变好。训练损失要下降。网页性能要提升。agent 任务成功率要提高。算法要真的找到更优解。
这就不是单纯的“生成答案”了,而是让 AI 进入实践。
用毛泽东《实践论》的框架来理解,认识不是凭空来的,也不是只靠书本、概念和推理完成的。认识来自实践,又必须回到实践中接受检验。人在实践中获得感性材料,再通过思维上升为理性认识;理性认识再反过来指导新的实践,并在新的实践中被验证、修正和深化。
如果把这个结构迁移到 AI 系统里,就会发现一个极其重要的方向:
真正有力量的 AI,不是只会调动已有知识的 AI,而是能够在实践反馈中不断修正自己、沉淀经验、深化策略的 AI。
这才是 AI 编程和 AI agent 未来最值得关注的拐点。
Ralph Loop:最朴素的“实践论 AI”
Ralph Loop 的逻辑几乎粗暴到令人发笑:
让 AI 写代码。运行。报错。把错误喂回给 AI。让它继续修。再运行。再报错。再修。直到通过。
它看起来不像高深技术,甚至像一个 Bash 循环。但它的思想非常深:
失败不是终点,失败是认识材料。
在传统开发里,报错是程序员要处理的麻烦。
在 Ralph Loop 里,报错变成 AI 下一轮行动的依据。
编译器错误、测试失败、运行日志、类型报错、lint 结果、git diff,这些过去被视为开发过程中的“问题”,现在变成了模型认识世界的材料。
这就非常接近《实践论》里的一个核心精神:
认识不是一次完成的,而是在实践中不断暴露矛盾、解决矛盾、再进入更高层次实践的过程。
AI 第一次写错代码,并不重要。重要的是,它能不能面对错误,能不能从错误中提取信息,能不能据此调整下一轮行动。
Ralph Loop 的价值不在于“让 AI 一次写对”,而在于它默认 AI 第一次会错,并且把“错”纳入系统设计。
这其实比追求一次性完美更高级。
因为真实世界的大多数复杂问题,本来就不是一次想通、一次写对、一次完成的。它们需要不断试探、暴露问题、修正假设、再试探。
Ralph Loop 的朴素之处,恰恰在于它把这个过程自动化了。
它让 AI 开始有了一点点“在实践中学习”的味道。
/goal:从被动修错,到围绕目标持续实践
如果说 Ralph Loop 是错误驱动,那么 /goal 代表的是目标驱动。
Ralph Loop 的核心是:“没完成,就继续。”/goal 的核心则是:“给定一个完成条件,持续工作,直到目标被满足。”
这一步很重要。
因为真实的软件工程任务,往往不是单个 bug,也不是单次生成,而是一组带约束的目标。
比如:
把某个模块迁移到新框架。修复所有测试失败。重构一段代码,但保持 API 不变。优化一个页面,同时不牺牲交互。让一个 agent 在固定任务集上的成功率超过某个阈值。把一个功能做到 CI 全绿,性能不下降,文档同步更新。
这些任务都不是一句 prompt 可以完成的。它们需要模型反复阅读代码、修改、运行、检查、再修改。
/goal 的意义,是把“人不停催 AI 继续做”这件事,抽象成一个目标完成机制。
过去人类要一步步说:
你先改这个文件。现在跑一下测试。这个 case 没过,继续修。这里引入了新错误,回滚。这个性能变差了,换方案。最后整理一下提交。
而目标驱动的方式是:
目标:所有测试通过,性能不下降,保持接口兼容。约束:不引入新依赖,不改变数据库结构,不删除现有功能。完成条件:CI 全绿,benchmark 不低于当前版本。
然后让 AI 在这个范围内持续行动。
这就是从“人类控制每一步动作”转向“人类定义目标和边界”。
这也更接近实践论的结构:实践不是盲动,而是在一定目的指导下的改造活动。认识指导实践,实践又检验认识。
在 AI 系统里,/goal 就相当于把“认识指导实践”的部分显式化:我们给 AI 一个目标性认识,让它进入实践,再用实践结果判断这个认识是否足够清晰、足够正确。
如果目标写得含糊,AI 会乱跑。
如果目标写得清楚,AI 就有可能持续逼近。
所以 /goal 的真正意义,不是一个命令,而是一种角色变化:人类不再是每一步的操作者,而是目标、边界和完成状态的设计者。
autoresearch:让 AI 在实验中深化认识
Karpathy 的 autoresearch 再往前走了一步。
它不是只让 AI 修 bug,也不是只让 AI 完成一个固定任务,而是让 AI 在一个真实但受控的研究环境中自动做实验。
典型循环是:
AI 修改训练代码。运行固定时长的训练。得到指标,比如 validation loss。如果指标改善,就保留。如果指标变差,回滚。继续下一轮。
这已经非常接近一个小型自动科研系统。
它的关键不是“AI 会写训练代码”,而是整个环境被设计成了可实践、可比较、可筛选、可积累。
固定训练时间,是为了让实验可比。明确指标,是为了判断什么叫进步。Git 分支,是为了保留和回滚。program.md,则是人类写给 AI 的研究纲领。
这时,人类已经不再直接调每一个超参数,而是在设计一个研究闭环:
研究目标是什么?哪些代码可以改?哪些代码不能改?什么指标算进步?什么代价不能接受?每轮实验如何记录?哪些结果应该沉淀为下一轮经验?
这和实践论的关系就更明显了。
实践论并不把认识理解成一次性的“想明白”,而是强调认识要经过实践检验,并在反复实践中上升。一个理论、一个判断、一个方案,只有进入实践,被现实检验,才能知道它是不是真正有效。
autoresearch 做的事情就是:
让 AI 的每一个想法都必须变成代码。让代码必须进入训练实践。让训练结果给出反馈。让反馈决定下一轮认识。
这是一种非常工程化的“实践—认识—再实践—再认识”。
AI 第一次提出的改法只是猜想。
训练结果是实践检验。
指标改善说明猜想可能有效。
指标变差说明认识需要修正。
保留下来的不是空洞概念,而是经过实践筛选的经验。
这就是为什么 autoresearch 的意义不只是“自动调参”。
它真正展示的是:AI 可以被组织进一个实验系统里,通过实践反馈持续生成更有效的认识。
AlphaEvolve:不只是实践,而是进化“实践方法”
Ralph Loop 让 AI 修错误。
/goal 让 AI 朝目标持续行动。
autoresearch 让 AI 在实验中优化代码和指标。
AlphaEvolve 则让 AI 进化“寻找答案的方法”。
这就是元优化。
传统做法是:
人类专家设计一个搜索算法。计算机运行这个算法。看能不能找到好结果。
AlphaEvolve 做的是:
AI 修改搜索算法。运行修改后的算法。根据结果评分。把更好的算法留下。继续变异。
也就是说,它不是直接搜索答案,而是在搜索“如何搜索答案”。
这件事极其重要。
因为很多复杂问题的难点,不是某个答案特别难写,而是我们根本不知道应该用什么方法去找到答案。
当问题空间巨大、离散、组合爆炸、没有梯度、不能靠常规推导推进时,“寻找更好的寻找方法”本身就成了核心。
AlphaEvolve 的意义就在这里:
它让 AI 不只在实践中修正局部行动,而是在实践中改进实践方式本身。
这对应到人类认识过程,也非常深。
人类不仅会用已有方法改造世界,还会在实践中发现原有方法的局限,进而创造新的方法、新的工具、新的组织形式。实践不仅检验认识,也推动认识结构本身升级。
AlphaEvolve 所代表的,正是 AI 系统里的这种升级:
从“用已有方法解决问题”,走向“通过实践反馈发明更好的解决方法”。
这就是为什么它比普通代码生成高一个层级。
普通代码生成是在给出结果。autoresearch 是在优化结果。AlphaEvolve 是在进化产生结果的方法。
这也是未来 AI 最有想象力的方向之一。
闭环,才是护城河
把 Ralph Loop、/goal、autoresearch、AlphaEvolve 等抽象出来,会看到一个逐渐完整的结构:
目标层:要改造什么?
约束层:不能牺牲什么?
生成层:AI 提出什么方案?
执行层:如何进入真实环境实践?
反馈层:实践结果如何返回?
评估层:如何判断好坏?
选择层:保留、回滚还是继续探索?
记忆层:成功和失败如何沉淀?
元优化层:这个闭环本身能否继续改进?
这就是“会用实践论的 AI”的基本结构。
它不是只会说“我知道”。
它会做。
做完能看到结果。
看到结果能修正。
修正后能再做。
做多了能沉淀模式。
沉淀之后能改进自己的做法。
大多数人使用 AI,目前还停留在生成层。
他们问:
帮我写一个功能。帮我改一个页面。帮我写一个 agent。帮我优化一下 prompt。帮我总结一个方案。
但真正的杠杆在生成层之后。
如果没有执行层,AI 的代码只是文本。如果没有反馈层,AI 的实践没有结果。如果没有评估层,改进没有方向。如果没有选择层,尝试不会积累。如果没有记忆层,失败无法复利。如果没有元优化层,系统不会越来越会工作。
所以未来 AI 编程高手和普通使用者的区别,很可能不是谁更会写 prompt,而是谁更会搭实践闭环。
现在很多讨论仍然停留在模型对比:
Claude 更适合写代码吗?GPT 推理是否更强?Gemini 上下文是否更长?开源模型能否追上?
这些问题当然重要,但如果只盯模型,就容易错过更关键的东西。
模型只是认知能力的一部分。
实践系统决定这种能力能不能落地、能不能被检验、能不能积累、能不能进化。
一个强模型加混乱流程,可能只是更快地产生混乱结果。
一个中等模型加优秀实践闭环,却可能稳定地产生可用成果。
可以这样理解:
模型是大脑。工具是手脚。测试是现实反馈。指标是实践结果的量化表达。Git 是历史记忆。约束是行动边界。目标是实践方向。闭环是认识深化的机制。
没有闭环,模型再强,也只是一次性输出。
有了闭环,模型每一次失败都能变成下一次认识的材料。
这就是为什么流程会成为护城河。
未来真正的高阶 AI 使用者,不会只问“哪个模型最强”,而会问:
这个任务能不能被实践检验?反馈能不能自动返回?指标是否代表真实进步?失败案例能不能沉淀?改动能不能回滚?系统能不能持续自我改进?
这才是从“玩模型”到“造系统”的分水岭。
人的角色,是站到更高层
有人会误解:如果 AI 可以自动写代码、跑实验、修 bug、优化策略,人是不是就不重要了?
恰恰相反。
人的执行性劳动会减少,但人的判断力、方向感、价值感和系统设计能力会变得更重要。
因为实践闭环很强,但也很危险。
目标错了,它会高效率地优化错误目标。指标错了,它会学会钻指标空子。约束不清,它会拆东墙补西墙。反馈太窄,它会陷入局部最优。上下文混乱,它会在错误假设上越走越远。实践环境设计不当,它会学到错误经验。
这就像人类实践一样:实践不是盲目行动。盲目行动不会自动产生真知,只有在正确问题意识、方法、反馈和反思之下,实践才会推动认识上升。
所以未来人的核心职责不是消失,而是升级:
定义真正值得优化的问题。设计能反映真实进步的评价。设置不能被牺牲的边界。判断哪些结果只是指标好看,哪些结果真的有价值。在系统陷入局部最优时,改变问题表述。在 AI 生成大量方案后,保留真正有长期价值的方向。在实践反馈混乱时,重新设计实验环境。在系统能力增强后,继续改进系统本身。
人从“写代码的人”变成“设计实践闭环的人”。
从“解题者”变成“设计解题机制的人”。
从“操作员”变成“系统训练者、目标设定者和价值判断者”。这不是人的退场,而是人的上升。
把问题改造成可实践的系统
如果要把这套方法压缩成一句话,就是:
不要只问 AI 要一个答案,要把问题改造成一个可以在实践中持续逼近好答案的系统。
这适用于软件开发,也适用于 AI 产品、自动化科研、组织流程和个人创造。
写程序时,不要只问:
“代码怎么写?”
而要问:
有没有测试?有没有可运行反馈?有没有回滚机制?有没有指标?有没有约束?有没有日志?有没有对比基线?有没有让 AI 自己继续改进的空间?
做网页时,不要只问:
“页面好不好看?”
而要问:
什么叫好?加载速度是多少?用户路径是否缩短?转化率能否测量?移动端是否稳定?改动是否可以按版本比较?用户行为反馈能否进入下一轮设计?
做 agent 时,不要只问:
“回答是否聪明?”
而要问:
任务完成率是多少?失败模式有哪些?工具调用是否正确?幻觉如何检测?成本是否可控?长期记忆是否污染?prompt、工具、workflow 能否分开迭代?失败案例是否会自动进入评估集?
做研究时,不要只问:
“有没有新 idea?”
而要问:
这个 idea 能不能快速实验?实验预算是否固定?指标是否可比?失败是否被记录?成功是否可复现?不同策略是否能并行探索?系统能不能提出下一轮实验?
这就是从 AI 使用者到 AI 系统设计者的跃迁。
从小闭环开始
这条路听起来宏大,但实践上可以从很小的地方开始。
第一步,建立错误反馈闭环。
选一个小项目,让 AI 写代码。
跑起来。
报错就把错误喂回去。
让 AI 修。
循环直到通过。
目标不是做出伟大产品,而是训练自己把失败当反馈。
第二步,建立测试驱动闭环。
先写测试,或者让 AI 写测试并由人审核。
然后让 AI 修改代码直到测试通过。这一步会让 AI 编程从“感觉对”变成“可验证”。
第三步,建立目标驱动闭环。
给 AI 一个明确完成条件:
所有测试通过。性能不下降。API 保持兼容。文档同步更新。不引入新依赖。不删除已有功能。
让它持续工作到目标满足,而不是让人一轮轮催促。
第四步,建立指标驱动闭环。
选择一个可以量化的目标:
网页加载时间。API 响应速度。agent 成功率。token 成本。模型评估分数。用户完成任务所需步骤。
让 AI 每轮提出一个改法,跑评估,保留更好的版本。
第五步,建立策略搜索闭环。
不要只让 AI 改某段代码,而是让它尝试不同策略。
比如 agent 可以比较:
先规划再搜索。先搜索再总结。多轮检索。工具调用后自我校验。多个子 agent 分工。回答前反事实检查。
这一步开始接近 AlphaEvolve 的精神:不是只优化答案,而是优化产生答案的方法。
第六步,建立元优化闭环。
让 AI 帮你反思:
测试是否覆盖关键场景?指标是否合理?prompt 是否过长?工具设计是否混乱?workflow 是否可以拆分?失败案例是否能自动进入评估集?整个闭环的瓶颈在哪里?
到这里,你就不只是在用 AI 写程序,而是在用 AI 改进“你如何使用 AI 写程序”。
这就是真正重要的分水岭。
会实践的 AI,才会真正改变世界
AI 的能力当然还会继续增强。模型会更大,上下文会更长,推理会更强,工具调用会更稳定。
但只看模型能力,还不足以理解这场变化。
真正值得关注的拐点,是 AI 开始被放入实践闭环。
它不只是回答问题。它开始行动。行动后看到结果。结果反过来修正认识。修正后的认识指导下一轮行动。一轮轮实践之后,系统不只是完成任务,而是变得更会完成任务。
这正是《实践论》里最有生命力的部分:认识和实践不是割裂的,认识来自实践,又必须回到实践;通过反复的实践和认识运动,人才能不断接近更深刻的真理,也才能更有效地改造世界。
迁移到 AI 时代,这句话可以改写为:
AI 的真正进步,不只是拥有更多知识,而是能在实践中检验知识、修正知识、沉淀知识,并用更深的认识改造世界。
未来最强的人,不一定是亲手写最多代码的人。
也不一定是收藏最多 prompt 的人。
更不是只会追逐最新模型的人。
未来最强的人,是最会设计实践闭环的人。
他们知道如何定义目标。如何设计评价。如何设置边界。如何让失败变成数据。如何让 AI 在安全范围内大量试错。如何把一次次尝试沉淀成系统能力。如何让 AI 不只是“会做事”,而是“越来越会做事”。
一句话:不要只让 AI 帮你做事,要搭建一个深刻领会毛泽东思想的AI 系统。
安德烈·卡帕西(OpenAI创始成员、前特斯拉AI负责人)于2026年5月19日宣布加入人工智能公司Anthropic,负责组建新团队,利用Claude大模型开展递归自我改进(RSI)研究,旨在通过AI优化自身训练过程。
夜雨聆风