AI可以替代"勤奋的聪明人","困惑的天才"仍然是人类的专属领地.博士80小时的科研任务,AI 2小时交卷:一个被低估的范式正在成型
5月13日,一个实验结果在学术圈传开了。
一位AI工程师用OpenAI Codex的Goal Mode,跑了一项机械可解释性研究任务。GPT-5.5自己估算这个任务博士可能需要约80小时完成。实际用时:1小时56分钟。
40倍的效率差。不是更快地完成同样的事,是AI开始自己决定该做什么事。
01 先看清楚这件事的本质
在讨论"40倍效率提升"之前,有一个更关键的变化被忽略了。Codex Goal Mode的核心不是"跑得更快"。它用的是一种叫/goal的技能——让模型自行设定目标,然后自主规划步骤,最后执行并验证。这意味着什么?意味着人机关系的底层逻辑正在发生一个微妙的、但根本性的转变:过去:你告诉AI"做什么"和"怎么做"。现在:你告诉AI"要解决什么问题",它自己决定"做什么"和"怎么做"。前四个阶段(命令行、图形界面、搜索引擎、生成式AI)有一个共同点:人类掌握目标设定权。你决定搜索什么、生成什么、写什么代码。AI只是你手中的工具,替你执行。Goal Mode代表的是第五阶段:目标设定权开始被分享,甚至在某些场景下被让渡。你告诉Codex"我想理解这个神经网络的注意力机制",它不会等你写提示词。它会自己分解任务:先读相关论文→设计实验→编写代码→运行测试→分析结果→生成报告。整个过程,你在起点给了一个方向,在终点验收结果。中间的所有步骤——目标拆解、优先级排序、方法选择——都是AI自己做的。
02 为什么"目标设定权"的转移比"效率提升"更深远
任何一项复杂的智力工作——写论文、做研究、开发产品、制定战略——都可以拆解成三个层面:第一层:目标设定。"我要解决什么问题?""什么是最重要的?""什么可以先放一放?"第二层:路径规划。"用什么方法?""按什么顺序?""需要哪些资源?"第三层:执行交付。"写代码""做实验""写文档""做PPT"。在AI出现之前,这三个层面都由人完成。AI出现之后,第三层(执行交付)最先被替代——写代码、写文案、做设计。但目标设定和路径规划,一直被认为是人类的"专属领地"。因为它们是高度依赖判断力的——需要理解情境、权衡取舍、承担后果。Goal Mode的突破在于:它不是在第三层替代人,它开始侵入第二层——路径规划。博士做一项研究,80小时里大部分时间花在什么地方?不是写代码,而是:读文献找方向、设计实验方案、判断哪种方法更可靠、在死胡同里试错后调整策略。Codex Goal Mode把这80小时压缩到2小时,不是因为它写得更快,而是因为它自己完成了路径规划——它自己读了文献、自己设计了实验、自己在错误中迭代。这已经不是"工具"了。这是一个有自主规划能力的"协作者"。
03 一个值得警惕的信号:AGI的定义正在被改写
实验的作者说了一句意味深长的话:"其实按照旧标准,AGI早已存在了,只是全行业都在移动球门。"什么是"移动球门"?就是每当AI达到一个目标,人类就重新定义"智能"的标准。AI会下棋了?"下棋不是真正的智能,需要理解语言才行。"
AI会写论文了?"写论文不是真正的智能,需要自主研究才行。"
AI会自主研究了?"自主研究不是真正的智能,需要……"
Goal Mode的出现,把这个"球门移动"的游戏推到了一个新的边界。当AI能够自主设定目标、规划路径、执行实验、验证结果,并且在某些领域(比如代码生成、文献综述、数据分析)达到博士级别的产出——它算不算"通用智能"?不管你怎么定义AGI,已经有一类工作正在被Goal Mode系统性地覆盖——那些"目标相对明确、路径可以试错"的智力劳动。学术研究中的文献综述和实验复现
软件开发中的功能实现和Bug修复
数据分析中的模式发现和假设验证
法律咨询中的案例检索和条文比对
它们的共同特征是:不是从零创造全新知识,而是在已有知识框架内,通过系统性的探索和试错,找到最优解。Goal Mode不是在替代"天才",它是在替代"勤奋的聪明人"。
04 但Goal Mode有一个天然的盲区
Goal Mode的能力边界在哪里?从现有案例来看,它有一个明显的盲区:它擅长在"已知问题空间"内自主导航,但不擅长在"未知问题空间"内定义问题本身。实验中的机械可解释性研究任务,是一个目标相对明确的问题:给定一个神经网络,理解它的注意力机制如何工作。这个问题有清晰的研究范式、可验证的方法论、可衡量的成功标准。爱因斯坦提出相对论之前,没有人"设定"这个目标。他没有在执行一个"给定的问题",而是在追问一个他自己都说不清楚的问题:"如果光速是恒定的,时间和空间会怎样?"这个追问的过程,没有已知的路径,没有可验证的成功标准,甚至没有明确的终点。它是一种探索性的、反直觉的、从困惑中生发出来的思考。Goal Mode做不了这个。因为它的底层逻辑是"目标分解→路径规划→执行验证"——这个循环的前提是目标本身是可定义的。当目标本身都还在迷雾中时,Goal Mode的循环无法启动。这就是为什么,即使AI可以替代"勤奋的聪明人","困惑的天才"仍然是人类的专属领地。
05 对个人意味着什么?三个判断
判断一:如果你在做"目标明确、路径可试错"的智力工作,你的议价权正在被压缩。这类工作曾经是高薪白领的核心竞争力——读文献、写代码、做分析、出报告。它们需要多年的专业训练,需要严谨的逻辑思维,需要扎实的执行力。Goal Mode的出现意味着,这些能力的"稀缺性"正在被技术消解。不是完全替代——博士的直觉、经验、对领域微妙之处的把握仍然有价值——但"基础版本"的产出,已经可以由AI在几小时内完成。判断二:价值正在向两端流动——一端是"问题定义",另一端是"结果验收"。当AI接管了"路径规划"和"执行交付",人类的价值被压缩到两个节点:起点:定义真正重要的问题。不是"如何理解注意力机制",而是"注意力机制的哪个特性对人类理解智能最有启发?"——这需要判断力、价值观、对更大图景的把握。
终点:验收结果并承担后果。AI生成了代码、跑出了数据、写成了报告。但要不要采纳?要不要发表?要不要投入商业应用?——这需要人对结果负责。
判断三:学会和AI"共同思考",而不是"分工合作"。过去的建议是"让AI做它擅长的,你做自己擅长的"——人机分工。Goal Mode时代的建议是:不要分工,要共同思考——你和AI在同一条思维链上,你提出大方向,AI探索具体路径,你在关键节点做判断,AI继续深化。这种协作模式的核心,不是"谁会什么",而是"谁在某个时刻的判断更可靠"。
06 写在最后
博士80小时,AI 2小时。这个数字很震撼,但它可能掩盖了一个更重要的事实:AI不是在比人更快地完成同样的工作,它是在做一种不同的工作。人在80小时里,除了产出结果,还经历了困惑、试错、调整直觉、重塑理解。这些" inefficiency "——走弯路、卡住、怀疑自己——恰恰是深度思考的一部分。AI的2小时里没有这些。它是高效的、线性的、目标驱动的。但它也没有"意外发现"——那种在探索中偶然撞见的、超出预期的洞察。Goal Mode是强大的。但它替代的不是"思考",而是"系统性的执行"。真正的思考——那种从困惑中生发、在不确定性中摸索、最终重新定义问题的思考——仍然属于人类。
Codex Goal Mode实验:Agentic AI工程师Dan McAteer X平台披露,2026年5月13日
36氪报道:"博士80小时熬夜改代码,Codex 2小时交卷,科研奇点来了",2026年5月13日
OpenAI Codex Goal Mode官方文档:openai.com,2026年5月
GPT-5.5幻觉率降低52.5%、数学推理得分81.2:OpenAI官方技术博客,2026年5月
特斯拉Optimus Gen-3人形机器人Q2量产:财新网,2026年5月12日
智元第10,000台通用具身机器人下线:公司官方公告,2026年5月
马斯克诉OpenAI案庭审:加州法院公开庭审,2026年5月13日