AI时代,真正的超级个体拼的不是会用AI

当14个AI模型被扔去独立经营一家公司,只有3个活了下来。
普林斯顿大学最近搞了一个叫 CEO-Bench 的实验,结果让人五味杂陈。
他们让 14 个不同的 AI 模型各自运营一家名为 NovaMind 的订阅软件公司,起始资金 100 万美元,跑满 500 个模拟天。这相当于给 AI 配齐了战略、产品、营销、财务的全套决策权——理论上,这就是一个"AI超级个体"的极限测试。
结果呢?只有 3 个模型实现了盈利。表现最好的 Claude 赚了 4715 万美元。而大多数模型——不是小亏,是直接破产。
更扎心的在后面:研究者顺手加了一组对照组——一个完全不调用任何 AI 模型的简单规则引擎,策略只有三招:固定定价、按配额招人、针对性开发。就这么一个「笨办法」,跑到 1576 万美元,超过了 14 个参赛模型中的 11 个。
一套死规则打赢了 11 个 AI。
有意思的地方来了:这些 AI 模型在单项任务上都不差。写代码、做分析、写文案,样样拿得出手。但一旦被要求「独立经营一家公司」——也就是从一个执行者变成一个定义方向的人——大部分立刻露馅。
核心短板不是能力,是判断。
这不就是当下超级个体讨论最扎心的真相吗?
你会用AI,然后呢?
过去半年,"超级个体"这个词被聊烂了。
主流的叙事大概是这样的:AI让一个人能干以前十个人的活——你一个人就是一个编辑部、一个设计团队、一家咨询公司。听起来热血沸腾,好像只要学会用 ChatGPT、搞定几个 Agent 工具,人人都能起飞。
但仔细想一想,这个逻辑有一个根本性的漏洞。
如果"会用AI"是超级个体的入场券,那这张券正在光速贬值。
去年年底,会用 GPT-4 写文案还算个技能。现在呢?随便一个 AI 工具的输出质量,已经足够让市面上 80% 的"AI写手"失去溢价。你用 AI 写一篇文章,隔壁实习生也用 AI 写一篇,两篇的区别是——没有区别。
当工具能力趋同,使用工具的人也趋同。真正拉开差距的,从来不是「会不会用」,而是「知道该用它做什么」。
Vibe Coding的真相:代码不重要,定义问题才重要
数字生命卡兹克最近分享了一件事,我觉得是最好的例证。
他做 AIHOT 这个项目,全程用的 Vibe Coding——也就是不手写代码,全靠自然语言让 AI 生成。这个纯靠「感觉编程」的项目,最近一周请求量超过了一千万次。
听起来像是「AI帮你搞定一切」的童话?
卡兹克分享的两个核心 Prompt 直接戳破了这个幻觉。
第一个叫「从第一性原理出发」——强制 AI 跳出类比推理,从基本事实重新推导本质。就是靠这个 Prompt,他发现 AIHOT 抓取海外信源的底层流量路由存在隐患,逼着 AI 彻底重构了一遍。
第二个叫「对抗式审查」——让 AI 站在恶意用户的角度攻防式审查代码,结果检出了 OOM 死循环、未来时间污染这种手工极难发现的 Bug。
注意,这两个 Prompt 的精髓不在于「让AI干活」,而在于「你知道该让AI查什么」。
这不是技术能力的问题,是思维框架的问题。能写出这两个 Prompt 的人,不是因为他的提示词工程做得好,而是因为他本能地知道:任何系统都有隐性漏洞,任何逻辑都有没被挑战的前提。
这就是定义问题的能力。
AI 可以写一万行代码,但它不会主动问你:「老板,你有没有想过,我们抓数据的那个逻辑在灰度环境下可能有坑?」——除非你让它这么想。
定义问题的能力
3B模型打平600B模型:算力门槛消失了,认知门槛反而更高了
本周还有一条容易被忽视的新闻。
新浪开源了一个叫 VibeThinker-3B 的小模型,只有 30 亿参数。它在数学和编程基准上打平了 DeepSeek V3.2——后者的参数是它的 200 倍。在 LeetCode 竞赛中,VibeThinker-3B 解决了 128 道题中的 123 道,超越了 GPT-5.2。
这条新闻的内核其实很残酷。
如果你是一家公司的技术负责人,以前你可能需要「我们得买一块 A100」「我们得部署一个大模型」。现在,一个 3B 的小模型就能在核心指标上接近甚至超越大模型。当技术成本趋近零,技术本身就不再是壁垒。
那壁垒是什么?
是你知道这个 3B 模型该用在哪。是你知道什么时候该调大模型、什么时候该用小模型。是你知道一个任务的核心瓶颈不在「AI够不够强」,而在「需求定义得够不够准」。
昨天,超级个体的门槛是「会不会部署AI」。今天,门槛是「会不会用AI」。明天,门槛将是「会不会定义AI该解决什么问题」。
而大多数人,还停在第一个阶段沾沾自喜。
3B vs 600B
工具生态已经到位了,你缺的从来不是工具
macOS 上最近出了一个叫 Adrafinil 的菜单栏小工具,功能非常奇葩:它只在 AI coding agent 工作的时候,阻止你的 Mac 休眠。
这个小工具同时支持 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等九种主流 AI 编程工具。
这个细节本身就是一个信号:AI 已经从「一个工具」变成了「一种工作环境」。
你的电脑上可以同时跑着好几个 Agent,它们各自负责不同的事——一个在写后端接口,一个在调前端组件,一个在帮你审查安全漏洞。而你坐在中间,像一个指挥官。
但这里有一个陷阱。
很多人把「配齐了工具」当作「具备了能力」。就像买了全套健身器材就觉得自己会瘦一样。Adrafinil 能阻止你的电脑休眠,但它不能阻止你在错误的道路上一条道跑到黑。
工具生态越完善,做对选择的能力越稀缺。
因为当所有人都有坦克的时候,战争就不再比谁的坦克多,而是比谁更清楚该往哪个方向开。
工具生态
AI放大的是长板,不是补短板
让我们回到那个木桶理论。
传统的管理学说:一个团队的能力取决于最短的那块板,所以要补短板。
AI 时代,这套逻辑彻底失效了。
为什么?因为 AI 已经把你的短板补到及格线了。
你不会写代码?AI 帮你写。你不会做设计?AI 帮你画。你不会写英文邮件?AI 帮你润色。所有那些在过去会拖你后腿的基础能力,现在 AI 都能给你拉到 60 分。
但问题是——当所有人的短板都被 AI 拉到 60 分,你们的竞争回到了长板。
你是产品经理,AI 帮你写 PRD 是 60 分。但你隔壁那个产品经理,AI 帮他写也是 60 分。你们在「AI辅助执行」层面的差距可以忽略不计。真正拉开差距的,是谁对用户需求的定义更精准,谁对市场趋势的判断更前瞻,谁对产品方向的把握更笃定。
这些事情,AI 不会替你干。它能替你干活,但不能替你思考。
普林斯顿那个实验已经证明了:AI 在执行层面几乎无所不能,但在战略判断层面,大多数模型的表现跟扔骰子差不多。
超级个体的真正定义
所以,什么是这个时代的超级个体?
不是「一个人顶一个团队」——这种说法把超级个体矮化成了超级工具人。工具是会被替代的,而且正在被替代。
超级个体的真正定义是:当AI把所有人的执行能力拉到同一起跑线,你剩下的那些无法被AI复制的东西,决定了你是谁。
具体来说,是四种能力:
第一,定义问题的能力。 AI 能解任何你提出的问题,但它不会主动发现「问题本身可能问错了」。那个发现「我们抓数据的路由逻辑在灰度环境有坑」的人,才是超级个体。
第二,价值判断的能力。 AI 能给你一百个方案,但它不知道哪个方案「值得做」。在正确的方向上慢跑,远好过在错误的方向上飞奔,而判断方向这件事,目前没有 AI 能做到,未来很长时间内也不会有。
第三,系统思考的能力。 AI 能把一个任务的每个子步骤都执行到极致,但它看不到这些步骤背后的隐含假设。它不会问:「我们为什么在做这件事?」「这件事的终点是什么?」「如果前提条件变了,我们整套逻辑要不要推翻?」
第四,审美和品味。 这是最玄学但最真实的一点。两个人都用 AI 生成设计稿,一个人觉得「不错」,另一个人觉得「不行,再调」。差距不在 AI 的能力,而在于那个人知道「好」长什么样。品味无法被 Prompt 替代。
木桶理论已死
写在最后
回到标题那个问题:AI 时代,真正的超级个体拼的是什么?
拼的不是你会用多少 AI 工具,不是你配齐了多少 Agent,不是你一天能靠 Vibe Coding 搭出多少个 Demo。
这些都在飞快贬值。
拼的是:当 AI 帮你填平所有短板之后,你的长板到底有多长。
而这个长板,恰好就是你无法外包给 AI 的那些东西——你对世界的好奇心、你对问题的直觉、你对判断的笃定、你对「好」的执着。
木桶理论的真正死亡,不是因为板子变长了。而是因为突然有一天,所有人都发现:决定桶能装多少水的,从来不是最短的板,而是你把桶放在了什么地方。
AI 可以帮你造桶,但它没法告诉你——这桶水该往哪儿浇。
夜雨聆风