AI可以替代＂勤奋的聪明人＂,＂困惑的天才＂仍然是人类的专属领地.

博士80小时的科研任务，AI 2小时交卷：一个被低估的范式正在成型

5月13日，一个实验结果在学术圈传开了。
一位AI工程师用OpenAI Codex的Goal Mode，跑了一项机械可解释性研究任务。GPT-5.5自己估算这个任务博士可能需要约80小时完成。实际用时：1小时56分钟。
40倍的效率差。不是更快地完成同样的事，是AI开始自己决定该做什么事。

01 先看清楚这件事的本质

在讨论"40倍效率提升"之前，有一个更关键的变化被忽略了。

Codex Goal Mode的核心不是"跑得更快"。它用的是一种叫/goal的技能——让模型自行设定目标，然后自主规划步骤，最后执行并验证。

这意味着什么？意味着人机关系的底层逻辑正在发生一个微妙的、但根本性的转变：

过去：你告诉AI"做什么"和"怎么做"。现在：你告诉AI"要解决什么问题"，它自己决定"做什么"和"怎么做"。

这个区别看似细微，实际上是天壤之别。

前四个阶段（命令行、图形界面、搜索引擎、生成式AI）有一个共同点：人类掌握目标设定权。你决定搜索什么、生成什么、写什么代码。AI只是你手中的工具，替你执行。

Goal Mode代表的是第五阶段：目标设定权开始被分享，甚至在某些场景下被让渡。

你告诉Codex"我想理解这个神经网络的注意力机制"，它不会等你写提示词。它会自己分解任务：先读相关论文→设计实验→编写代码→运行测试→分析结果→生成报告。

整个过程，你在起点给了一个方向，在终点验收结果。中间的所有步骤——目标拆解、优先级排序、方法选择——都是AI自己做的。

02 为什么"目标设定权"的转移比"效率提升"更深远

先来理解一个概念：工作的价值分布。

任何一项复杂的智力工作——写论文、做研究、开发产品、制定战略——都可以拆解成三个层面：

第一层：目标设定。"我要解决什么问题？""什么是最重要的？""什么可以先放一放？"

第二层：路径规划。"用什么方法？""按什么顺序？""需要哪些资源？"

第三层：执行交付。"写代码""做实验""写文档""做PPT"。

在AI出现之前，这三个层面都由人完成。AI出现之后，第三层（执行交付）最先被替代——写代码、写文案、做设计。

但目标设定和路径规划，一直被认为是人类的"专属领地"。因为它们是高度依赖判断力的——需要理解情境、权衡取舍、承担后果。

Goal Mode的突破在于：它不是在第三层替代人，它开始侵入第二层——路径规划。

博士做一项研究，80小时里大部分时间花在什么地方？不是写代码，而是：读文献找方向、设计实验方案、判断哪种方法更可靠、在死胡同里试错后调整策略。

Codex Goal Mode把这80小时压缩到2小时，不是因为它写得更快，而是因为它自己完成了路径规划——它自己读了文献、自己设计了实验、自己在错误中迭代。

这已经不是"工具"了。这是一个有自主规划能力的"协作者"。

03 一个值得警惕的信号：AGI的定义正在被改写

实验的作者说了一句意味深长的话："其实按照旧标准，AGI早已存在了，只是全行业都在移动球门。"

这句话值得拆解。

什么是"移动球门"？就是每当AI达到一个目标，人类就重新定义"智能"的标准。

AI会下棋了？"下棋不是真正的智能，需要理解语言才行。"

AI会写论文了？"写论文不是真正的智能，需要自主研究才行。"

AI会自主研究了？"自主研究不是真正的智能，需要……"

Goal Mode的出现，把这个"球门移动"的游戏推到了一个新的边界。

当AI能够自主设定目标、规划路径、执行实验、验证结果，并且在某些领域（比如代码生成、文献综述、数据分析）达到博士级别的产出——它算不算"通用智能"？

这个问题没有标准答案。但有一个更务实的观察：

不管你怎么定义AGI，已经有一类工作正在被Goal Mode系统性地覆盖——那些"目标相对明确、路径可以试错"的智力劳动。

这类工作包括：

学术研究中的文献综述和实验复现

软件开发中的功能实现和Bug修复

数据分析中的模式发现和假设验证

法律咨询中的案例检索和条文比对

它们的共同特征是：不是从零创造全新知识，而是在已有知识框架内，通过系统性的探索和试错，找到最优解。

Goal Mode不是在替代"天才"，它是在替代"勤奋的聪明人"。

04 但Goal Mode有一个天然的盲区

说完了冲击，说点限制。

Goal Mode的能力边界在哪里？从现有案例来看，它有一个明显的盲区：它擅长在"已知问题空间"内自主导航，但不擅长在"未知问题空间"内定义问题本身。

什么意思？

实验中的机械可解释性研究任务，是一个目标相对明确的问题：给定一个神经网络，理解它的注意力机制如何工作。这个问题有清晰的研究范式、可验证的方法论、可衡量的成功标准。

但科学研究中，还有大量工作不在此类。

爱因斯坦提出相对论之前，没有人"设定"这个目标。他没有在执行一个"给定的问题"，而是在追问一个他自己都说不清楚的问题："如果光速是恒定的，时间和空间会怎样？"

这个追问的过程，没有已知的路径，没有可验证的成功标准，甚至没有明确的终点。它是一种探索性的、反直觉的、从困惑中生发出来的思考。

Goal Mode做不了这个。因为它的底层逻辑是"目标分解→路径规划→执行验证"——这个循环的前提是目标本身是可定义的。

当目标本身都还在迷雾中时，Goal Mode的循环无法启动。

这就是为什么，即使AI可以替代"勤奋的聪明人"，"困惑的天才"仍然是人类的专属领地。

05 对个人意味着什么？三个判断

判断一：如果你在做"目标明确、路径可试错"的智力工作，你的议价权正在被压缩。

这类工作曾经是高薪白领的核心竞争力——读文献、写代码、做分析、出报告。它们需要多年的专业训练，需要严谨的逻辑思维，需要扎实的执行力。

Goal Mode的出现意味着，这些能力的"稀缺性"正在被技术消解。不是完全替代——博士的直觉、经验、对领域微妙之处的把握仍然有价值——但"基础版本"的产出，已经可以由AI在几小时内完成。

判断二：价值正在向两端流动——一端是"问题定义"，另一端是"结果验收"。

当AI接管了"路径规划"和"执行交付"，人类的价值被压缩到两个节点：

起点：定义真正重要的问题。不是"如何理解注意力机制"，而是"注意力机制的哪个特性对人类理解智能最有启发？"——这需要判断力、价值观、对更大图景的把握。

终点：验收结果并承担后果。AI生成了代码、跑出了数据、写成了报告。但要不要采纳？要不要发表？要不要投入商业应用？——这需要人对结果负责。

判断三：学会和AI"共同思考"，而不是"分工合作"。

过去的建议是"让AI做它擅长的，你做自己擅长的"——人机分工。

Goal Mode时代的建议是：不要分工，要共同思考——你和AI在同一条思维链上，你提出大方向，AI探索具体路径，你在关键节点做判断，AI继续深化。

这种协作模式的核心，不是"谁会什么"，而是"谁在某个时刻的判断更可靠"。

06 写在最后

回到那个40倍的效率差。

博士80小时，AI 2小时。这个数字很震撼，但它可能掩盖了一个更重要的事实：

AI不是在比人更快地完成同样的工作，它是在做一种不同的工作。

人在80小时里，除了产出结果，还经历了困惑、试错、调整直觉、重塑理解。这些" inefficiency "——走弯路、卡住、怀疑自己——恰恰是深度思考的一部分。

AI的2小时里没有这些。它是高效的、线性的、目标驱动的。但它也没有"意外发现"——那种在探索中偶然撞见的、超出预期的洞察。

Goal Mode是强大的。但它替代的不是"思考"，而是"系统性的执行"。

真正的思考——那种从困惑中生发、在不确定性中摸索、最终重新定义问题的思考——仍然属于人类。

至少目前如此。

参考来源：

Codex Goal Mode实验：Agentic AI工程师Dan McAteer X平台披露，2026年5月13日

36氪报道："博士80小时熬夜改代码，Codex 2小时交卷，科研奇点来了"，2026年5月13日

OpenAI Codex Goal Mode官方文档：openai.com，2026年5月

GPT-5.5幻觉率降低52.5%、数学推理得分81.2：OpenAI官方技术博客，2026年5月

特斯拉Optimus Gen-3人形机器人Q2量产：财新网，2026年5月12日

智元第10,000台通用具身机器人下线：公司官方公告，2026年5月

马斯克诉OpenAI案庭审：加州法院公开庭审，2026年5月13日