想把AI用到极致,竟然靠深刻领会教员的《实践论》?

过去一年，AI 编程领域出现了几个看似分散、实则高度同构的现象。

DeepMind 的 AlphaEvolve 用大语言模型自动进化算法，刷新了数学和工程领域的一些纪录；Karpathy 开源 autoresearch，让 AI agent 在固定计算预算下自动修改训练代码、跑实验、比较指标； Ralph Loop 命令用极其朴素的循环，让模型不断面对错误、修复错误，直到任务完成；而 /goal 这类命令，则把一次性对话变成了持续朝目标推进的执行过程。

表面上看，这些东西不在同一层级。AlphaEvolve 像科研。autoresearch 像自动实验平台。Ralph Loop 像工程师的小技巧。/goal 像一个命令行功能。

但如果把它们的外壳剥掉，会发现它们指向的是同一个方向：

AI 发生剧变的真正拐点，是人类开始设计“会用实践论”的 AI。

也就是说，AI 不再只是坐在文本世界里回答问题，而是进入一个实践闭环：

提出方案。作用于真实环境。获得反馈。修正认识。再次实践。再次修正。不断循环。

这件事的意义，可能比“模型参数更多”“上下文更长”“推理能力更强”还要深。

因为它意味着，AI 正在从“会说”走向“会做”，从“会生成”走向“会改进”，从“静态知识系统”走向“实践—认识—再实践—再认识”的动态系统。

真正的变化： AI 开始能在实践中修正自己

过去我们使用 AI 的主要方式，是提问和生成。

写一段代码。解释一个概念。生成一篇文章。补全一个函数。给一个商业建议。设计一个网页。

这当然有用，但它本质上还是“单轮输出”。

AI 根据已有知识、上下文和概率模式，给出一个看起来合理的答案。这个答案是否真的有效，主要靠人判断。它有没有跑通，有没有创造价值，有没有解决真实问题，往往不在模型内部闭环里。

而 AlphaEvolve、autoresearch、Ralph Loop、/goal 这一类东西，真正改变的是：

AI 的输出不再停留在语言层面，而是被放进现实或准现实环境中检验。

代码要跑。测试要过。指标要变好。训练损失要下降。网页性能要提升。agent 任务成功率要提高。算法要真的找到更优解。

这就不是单纯的“生成答案”了，而是让 AI 进入实践。

用毛泽东《实践论》的框架来理解，认识不是凭空来的，也不是只靠书本、概念和推理完成的。认识来自实践，又必须回到实践中接受检验。人在实践中获得感性材料，再通过思维上升为理性认识；理性认识再反过来指导新的实践，并在新的实践中被验证、修正和深化。

如果把这个结构迁移到 AI 系统里，就会发现一个极其重要的方向：

真正有力量的 AI，不是只会调动已有知识的 AI，而是能够在实践反馈中不断修正自己、沉淀经验、深化策略的 AI。

这才是 AI 编程和 AI agent 未来最值得关注的拐点。

Ralph Loop：最朴素的“实践论 AI”

Ralph Loop 的逻辑几乎粗暴到令人发笑：

让 AI 写代码。运行。报错。把错误喂回给 AI。让它继续修。再运行。再报错。再修。直到通过。

它看起来不像高深技术，甚至像一个 Bash 循环。但它的思想非常深：

失败不是终点，失败是认识材料。

在传统开发里，报错是程序员要处理的麻烦。

在 Ralph Loop 里，报错变成 AI 下一轮行动的依据。

编译器错误、测试失败、运行日志、类型报错、lint 结果、git diff，这些过去被视为开发过程中的“问题”，现在变成了模型认识世界的材料。

这就非常接近《实践论》里的一个核心精神：

认识不是一次完成的，而是在实践中不断暴露矛盾、解决矛盾、再进入更高层次实践的过程。

AI 第一次写错代码，并不重要。重要的是，它能不能面对错误，能不能从错误中提取信息，能不能据此调整下一轮行动。

Ralph Loop 的价值不在于“让 AI 一次写对”，而在于它默认 AI 第一次会错，并且把“错”纳入系统设计。

这其实比追求一次性完美更高级。

因为真实世界的大多数复杂问题，本来就不是一次想通、一次写对、一次完成的。它们需要不断试探、暴露问题、修正假设、再试探。

Ralph Loop 的朴素之处，恰恰在于它把这个过程自动化了。

它让 AI 开始有了一点点“在实践中学习”的味道。

/goal：从被动修错，到围绕目标持续实践

如果说 Ralph Loop 是错误驱动，那么 /goal 代表的是目标驱动。

Ralph Loop 的核心是：“没完成，就继续。”/goal 的核心则是：“给定一个完成条件，持续工作，直到目标被满足。”

这一步很重要。

因为真实的软件工程任务，往往不是单个 bug，也不是单次生成，而是一组带约束的目标。

比如：

把某个模块迁移到新框架。修复所有测试失败。重构一段代码，但保持 API 不变。优化一个页面，同时不牺牲交互。让一个 agent 在固定任务集上的成功率超过某个阈值。把一个功能做到 CI 全绿，性能不下降，文档同步更新。

这些任务都不是一句 prompt 可以完成的。它们需要模型反复阅读代码、修改、运行、检查、再修改。

/goal 的意义，是把“人不停催 AI 继续做”这件事，抽象成一个目标完成机制。

过去人类要一步步说：

你先改这个文件。现在跑一下测试。这个 case 没过，继续修。这里引入了新错误，回滚。这个性能变差了，换方案。最后整理一下提交。

而目标驱动的方式是：

目标：所有测试通过，性能不下降，保持接口兼容。约束：不引入新依赖，不改变数据库结构，不删除现有功能。完成条件：CI 全绿，benchmark 不低于当前版本。

然后让 AI 在这个范围内持续行动。

这就是从“人类控制每一步动作”转向“人类定义目标和边界”。

这也更接近实践论的结构：实践不是盲动，而是在一定目的指导下的改造活动。认识指导实践，实践又检验认识。

在 AI 系统里，/goal 就相当于把“认识指导实践”的部分显式化：我们给 AI 一个目标性认识，让它进入实践，再用实践结果判断这个认识是否足够清晰、足够正确。

如果目标写得含糊，AI 会乱跑。

如果目标写得清楚，AI 就有可能持续逼近。

所以 /goal 的真正意义，不是一个命令，而是一种角色变化：人类不再是每一步的操作者，而是目标、边界和完成状态的设计者。

autoresearch：让 AI 在实验中深化认识

Karpathy 的 autoresearch 再往前走了一步。

它不是只让 AI 修 bug，也不是只让 AI 完成一个固定任务，而是让 AI 在一个真实但受控的研究环境中自动做实验。

典型循环是：

AI 修改训练代码。运行固定时长的训练。得到指标，比如 validation loss。如果指标改善，就保留。如果指标变差，回滚。继续下一轮。

这已经非常接近一个小型自动科研系统。

它的关键不是“AI 会写训练代码”，而是整个环境被设计成了可实践、可比较、可筛选、可积累。

固定训练时间，是为了让实验可比。明确指标，是为了判断什么叫进步。Git 分支，是为了保留和回滚。program.md，则是人类写给 AI 的研究纲领。

这时，人类已经不再直接调每一个超参数，而是在设计一个研究闭环：

研究目标是什么？哪些代码可以改？哪些代码不能改？什么指标算进步？什么代价不能接受？每轮实验如何记录？哪些结果应该沉淀为下一轮经验？

这和实践论的关系就更明显了。

实践论并不把认识理解成一次性的“想明白”，而是强调认识要经过实践检验，并在反复实践中上升。一个理论、一个判断、一个方案，只有进入实践，被现实检验，才能知道它是不是真正有效。

autoresearch 做的事情就是：

让 AI 的每一个想法都必须变成代码。让代码必须进入训练实践。让训练结果给出反馈。让反馈决定下一轮认识。

这是一种非常工程化的“实践—认识—再实践—再认识”。

AI 第一次提出的改法只是猜想。

训练结果是实践检验。

指标改善说明猜想可能有效。

指标变差说明认识需要修正。

保留下来的不是空洞概念，而是经过实践筛选的经验。

这就是为什么 autoresearch 的意义不只是“自动调参”。

它真正展示的是：AI 可以被组织进一个实验系统里，通过实践反馈持续生成更有效的认识。

AlphaEvolve：不只是实践，而是进化“实践方法”

Ralph Loop 让 AI 修错误。

/goal 让 AI 朝目标持续行动。

autoresearch 让 AI 在实验中优化代码和指标。

AlphaEvolve 则让 AI 进化“寻找答案的方法”。

这就是元优化。

传统做法是：

人类专家设计一个搜索算法。计算机运行这个算法。看能不能找到好结果。

AlphaEvolve 做的是：

AI 修改搜索算法。运行修改后的算法。根据结果评分。把更好的算法留下。继续变异。

也就是说，它不是直接搜索答案，而是在搜索“如何搜索答案”。

这件事极其重要。

因为很多复杂问题的难点，不是某个答案特别难写，而是我们根本不知道应该用什么方法去找到答案。

当问题空间巨大、离散、组合爆炸、没有梯度、不能靠常规推导推进时，“寻找更好的寻找方法”本身就成了核心。

AlphaEvolve 的意义就在这里：

它让 AI 不只在实践中修正局部行动，而是在实践中改进实践方式本身。

这对应到人类认识过程，也非常深。

人类不仅会用已有方法改造世界，还会在实践中发现原有方法的局限，进而创造新的方法、新的工具、新的组织形式。实践不仅检验认识，也推动认识结构本身升级。

AlphaEvolve 所代表的，正是 AI 系统里的这种升级：

从“用已有方法解决问题”，走向“通过实践反馈发明更好的解决方法”。

这就是为什么它比普通代码生成高一个层级。

普通代码生成是在给出结果。autoresearch 是在优化结果。AlphaEvolve 是在进化产生结果的方法。

这也是未来 AI 最有想象力的方向之一。

闭环，才是护城河

把 Ralph Loop、/goal、autoresearch、AlphaEvolve 等抽象出来，会看到一个逐渐完整的结构：

目标层：要改造什么？

约束层：不能牺牲什么？

生成层：AI 提出什么方案？

执行层：如何进入真实环境实践？

反馈层：实践结果如何返回？

评估层：如何判断好坏？

选择层：保留、回滚还是继续探索？

记忆层：成功和失败如何沉淀？

元优化层：这个闭环本身能否继续改进？

这就是“会用实践论的 AI”的基本结构。

它不是只会说“我知道”。

它会做。

做完能看到结果。

看到结果能修正。

修正后能再做。

做多了能沉淀模式。

沉淀之后能改进自己的做法。

大多数人使用 AI，目前还停留在生成层。

他们问：

帮我写一个功能。帮我改一个页面。帮我写一个 agent。帮我优化一下 prompt。帮我总结一个方案。

但真正的杠杆在生成层之后。

如果没有执行层，AI 的代码只是文本。如果没有反馈层，AI 的实践没有结果。如果没有评估层，改进没有方向。如果没有选择层，尝试不会积累。如果没有记忆层，失败无法复利。如果没有元优化层，系统不会越来越会工作。

所以未来 AI 编程高手和普通使用者的区别，很可能不是谁更会写 prompt，而是谁更会搭实践闭环。

现在很多讨论仍然停留在模型对比：

Claude 更适合写代码吗？GPT 推理是否更强？Gemini 上下文是否更长？开源模型能否追上？

这些问题当然重要，但如果只盯模型，就容易错过更关键的东西。

模型只是认知能力的一部分。

实践系统决定这种能力能不能落地、能不能被检验、能不能积累、能不能进化。

一个强模型加混乱流程，可能只是更快地产生混乱结果。

一个中等模型加优秀实践闭环，却可能稳定地产生可用成果。

可以这样理解：

模型是大脑。工具是手脚。测试是现实反馈。指标是实践结果的量化表达。Git 是历史记忆。约束是行动边界。目标是实践方向。闭环是认识深化的机制。

没有闭环，模型再强，也只是一次性输出。

有了闭环，模型每一次失败都能变成下一次认识的材料。

这就是为什么流程会成为护城河。

未来真正的高阶 AI 使用者，不会只问“哪个模型最强”，而会问：

这个任务能不能被实践检验？反馈能不能自动返回？指标是否代表真实进步？失败案例能不能沉淀？改动能不能回滚？系统能不能持续自我改进？

这才是从“玩模型”到“造系统”的分水岭。

人的角色，是站到更高层

有人会误解：如果 AI 可以自动写代码、跑实验、修 bug、优化策略，人是不是就不重要了？

恰恰相反。

人的执行性劳动会减少，但人的判断力、方向感、价值感和系统设计能力会变得更重要。

因为实践闭环很强，但也很危险。

目标错了，它会高效率地优化错误目标。指标错了，它会学会钻指标空子。约束不清，它会拆东墙补西墙。反馈太窄，它会陷入局部最优。上下文混乱，它会在错误假设上越走越远。实践环境设计不当，它会学到错误经验。

这就像人类实践一样：实践不是盲目行动。盲目行动不会自动产生真知，只有在正确问题意识、方法、反馈和反思之下，实践才会推动认识上升。

所以未来人的核心职责不是消失，而是升级：

定义真正值得优化的问题。设计能反映真实进步的评价。设置不能被牺牲的边界。判断哪些结果只是指标好看，哪些结果真的有价值。在系统陷入局部最优时，改变问题表述。在 AI 生成大量方案后，保留真正有长期价值的方向。在实践反馈混乱时，重新设计实验环境。在系统能力增强后，继续改进系统本身。

人从“写代码的人”变成“设计实践闭环的人”。

从“解题者”变成“设计解题机制的人”。

从“操作员”变成“系统训练者、目标设定者和价值判断者”。这不是人的退场，而是人的上升。

把问题改造成可实践的系统

如果要把这套方法压缩成一句话，就是：

不要只问 AI 要一个答案，要把问题改造成一个可以在实践中持续逼近好答案的系统。

这适用于软件开发，也适用于 AI 产品、自动化科研、组织流程和个人创造。

写程序时，不要只问：

“代码怎么写？”

而要问：

有没有测试？有没有可运行反馈？有没有回滚机制？有没有指标？有没有约束？有没有日志？有没有对比基线？有没有让 AI 自己继续改进的空间？

做网页时，不要只问：

“页面好不好看？”

而要问：

什么叫好？加载速度是多少？用户路径是否缩短？转化率能否测量？移动端是否稳定？改动是否可以按版本比较？用户行为反馈能否进入下一轮设计？

做 agent 时，不要只问：

“回答是否聪明？”

而要问：

任务完成率是多少？失败模式有哪些？工具调用是否正确？幻觉如何检测？成本是否可控？长期记忆是否污染？prompt、工具、workflow 能否分开迭代？失败案例是否会自动进入评估集？

做研究时，不要只问：

“有没有新 idea？”

而要问：

这个 idea 能不能快速实验？实验预算是否固定？指标是否可比？失败是否被记录？成功是否可复现？不同策略是否能并行探索？系统能不能提出下一轮实验？

这就是从 AI 使用者到 AI 系统设计者的跃迁。

从小闭环开始

这条路听起来宏大，但实践上可以从很小的地方开始。

第一步，建立错误反馈闭环。

选一个小项目，让 AI 写代码。

跑起来。

报错就把错误喂回去。

让 AI 修。

循环直到通过。

目标不是做出伟大产品，而是训练自己把失败当反馈。

第二步，建立测试驱动闭环。

先写测试，或者让 AI 写测试并由人审核。

然后让 AI 修改代码直到测试通过。这一步会让 AI 编程从“感觉对”变成“可验证”。

第三步，建立目标驱动闭环。

给 AI 一个明确完成条件：

所有测试通过。性能不下降。API 保持兼容。文档同步更新。不引入新依赖。不删除已有功能。

让它持续工作到目标满足，而不是让人一轮轮催促。

第四步，建立指标驱动闭环。

选择一个可以量化的目标：

网页加载时间。API 响应速度。agent 成功率。token 成本。模型评估分数。用户完成任务所需步骤。

让 AI 每轮提出一个改法，跑评估，保留更好的版本。

第五步，建立策略搜索闭环。

不要只让 AI 改某段代码，而是让它尝试不同策略。

比如 agent 可以比较：

先规划再搜索。先搜索再总结。多轮检索。工具调用后自我校验。多个子 agent 分工。回答前反事实检查。

这一步开始接近 AlphaEvolve 的精神：不是只优化答案，而是优化产生答案的方法。

第六步，建立元优化闭环。

让 AI 帮你反思：

测试是否覆盖关键场景？指标是否合理？prompt 是否过长？工具设计是否混乱？workflow 是否可以拆分？失败案例是否能自动进入评估集？整个闭环的瓶颈在哪里？

到这里，你就不只是在用 AI 写程序，而是在用 AI 改进“你如何使用 AI 写程序”。

这就是真正重要的分水岭。

会实践的 AI，才会真正改变世界

AI 的能力当然还会继续增强。模型会更大，上下文会更长，推理会更强，工具调用会更稳定。

但只看模型能力，还不足以理解这场变化。

真正值得关注的拐点，是 AI 开始被放入实践闭环。

它不只是回答问题。它开始行动。行动后看到结果。结果反过来修正认识。修正后的认识指导下一轮行动。一轮轮实践之后，系统不只是完成任务，而是变得更会完成任务。

这正是《实践论》里最有生命力的部分：认识和实践不是割裂的，认识来自实践，又必须回到实践；通过反复的实践和认识运动，人才能不断接近更深刻的真理，也才能更有效地改造世界。

迁移到 AI 时代，这句话可以改写为：

AI 的真正进步，不只是拥有更多知识，而是能在实践中检验知识、修正知识、沉淀知识，并用更深的认识改造世界。

未来最强的人，不一定是亲手写最多代码的人。

也不一定是收藏最多 prompt 的人。

更不是只会追逐最新模型的人。

未来最强的人，是最会设计实践闭环的人。

他们知道如何定义目标。如何设计评价。如何设置边界。如何让失败变成数据。如何让 AI 在安全范围内大量试错。如何把一次次尝试沉淀成系统能力。如何让 AI 不只是“会做事”，而是“越来越会做事”。

一句话：不要只让 AI 帮你做事，要搭建一个深刻领会毛泽东思想的AI 系统。

安德烈·卡帕西（OpenAI创始成员、前特斯拉AI负责人）于2026年5月19日宣布加入人工智能公司Anthropic，负责组建新团队，利用Claude大模型开展递归自我改进（RSI）研究，旨在通过AI优化自身训练过程。