所有人都在看AI能力,没人算过它的时薪-夜雨聆风

所有人都在看AI能力,没人算过它的时薪

4月初我写过一篇文章（AI让很多东西变便宜了，但有些东西反而更贵了），聊到AI时代有些东西反而变贵了——判断力、真实的使用经验、主动去做事的意志。执行的成本趋近于零，但这几样东西，反而越来越稀缺。

但那篇文章有个问题没回答：AI本身的使用成本呢？

我们每天都在听”AI越来越便宜”——Claude做个简单任务，可能真的只要几毛钱；和几年前相比，主流模型的价格也确实降了很多。这些都是真的。

但我最近看到一篇文章，让我觉得这件事没那么简单。作者叫Toby Ord，牛津大学的哲学家，写过《The Precipice》——一本专门研究人类存亡风险的书。他不是AI圈内人，是个站在外部、独立审视这个行业的严肃学者。

他问了一个看起来很基础、但几乎没人认真算过的问题：

AI的”时薪”，到底是多少？

这篇文章我反复看了好几遍。越看越觉得，这个问题问得太准了。

01 一个没人认真算过的问题

我们平时说AI便宜，说的是什么？

大多数时候，说的是”每百万token多少钱”，或者”这个任务花了我几分钱”。这是从AI的角度算成本。

Toby Ord换了一个角度：从人类的角度算。

他的方法是这样的——如果有一件事，一个人类工程师需要N小时完成，你让AI来做，总共花了多少钱？把这个钱除以N，就是这个AI的”时薪”。

这个换算看起来简单，但一旦换过来，很多事情就不一样了。

因为不管是雇人还是买机器，最终算的都是：花这些钱，能干多少小时的活。用这把尺子量AI，才是在做真正的成本比较——AI到底有没有比人便宜？便宜多少？在什么情况下便宜，在什么情况下反而更贵？

Toby Ord把这个问题认真算了一遍。结果让他自己也吓了一跳。

02 数据来了

他的计算基础来自METR——一个专门评估AI能力的独立机构。METR有一套测量方式，叫”时间阈值”：给AI一批任务，看它能以50%的成功率完成”人类需要多长时间才能完成”的任务。这个数字越大，说明AI能独立搞定的事情越复杂。

Toby Ord拿着METR的数据，把它换算成时薪，列了一张表。

简单任务那头，AI确实很便宜。Claude 3.5 Sonnet处理短任务，时薪大约$0.40，连人类工程师的零头都不到。

到这里，你可能觉得没什么大不了——$0.40，便宜得很，符合预期。

但往复杂任务走，数字开始变得不一样。

Grok 4在简单任务上同样只要$0.40，但一旦推到中等难度的任务，时薪会跳到$13。

然后是GPT-5。起步时薪$13，推到它能力边界的任务时，时薪达到$120。

停一下——$120，是一个美国软件工程师的时薪。

AI的时薪，追上人类了。

然后是o3。o3的起步时薪就已经是$40，推到它能处理的最复杂任务时，时薪涨到$350。

人类工程师的时薪是$120。

Toby Ord算完这组数字之后，愣了一下。他在文章里写道：

“AI完成这些任务的时薪，不可能比人类更贵吧？不可能吧？“

然后他用数据回答了自己：可能。

不只是”可能”——o3的峰值时薪，是人类的将近3倍。而且，这还是在它有50%概率失败的前提下。

你付了3倍的价格，还有一半的概率，活儿没干成。

03 为什么会这样

看到这组数字，你可能会问：不对啊，AI不是一直在变便宜吗？每隔几个月就有模型降价，怎么反而越来越贵了？

这就要说到Toby Ord发现的一个关键问题——我们平时看到的AI能力数据，其实是用一种特殊的方式测出来的。

METR的测试方式是：不计成本地堆算力，直到模型性能跑到天花板，然后记下这个极限数字。我们经常看到的”AI现在能独立完成人类需要X小时的任务了”，说的就是这个极限。

这没有错。但问题是，跑到这个极限要花多少钱？

Toby Ord发现，每个模型都有一个性价比最高的”甜蜜点”——在这个区间里，多花一点钱，能力提升明显。但一旦过了这个点，要再往上提升一点点，需要付出的成本就急剧上涨。他在原文里提到，有些模型在甜蜜点之外，时薪会涨到10倍乃至100倍，但能力只往上挪了一点点。

而METR测的那个数字，恰恰是模型跑到极限时的表现——深深超过甜蜜点之后的结果。

所以当你看到”AI能力每年提升3倍”这个结论——这是Toby Ord写这篇文章时METR数据呈现的趋势，而2026年的最新分析显示，这个增速已经加快到约每年10倍——要多问一句：这3倍，是花了多少钱换来的？

Toby Ord把这个现象叫做F1赛车效应。F1赛车能跑到350公里每小时，这是真的；但没有人拿F1上下班。METR的趋势线，展示的是”什么是可能的”，不是”什么是实用的”。如果成本的增速持续快于能力的增速，这张成绩单会越来越像F1排行榜——看起来很厉害，但和你的实际需求越来越远。

他的结论是：有证据显示，AI的时薪正在随着模型能力的提升而指数级上涨。AI真正能以经济可行的成本替代人类的时间点，可能比所有人预期的都要晚。

04 那我们怎么办

这篇文章写到这里，我不想用”AI要变贵了，大家小心”来收尾。因为这不是重点。

重点是：同一件事，用不同的模型来做，成本可以差100倍。

这让我想到今年3月黄仁勋在GTC大会上说的一句话。他说，未来他们公司的每一位工程师都需要有一份年度Token预算——工程师年薪几十万美元，他会额外再给他们配上相当于年薪一半价值的Token，因为这能让工程师的效率提升10倍。

注意这句话里的逻辑：不是”给所有人一样多的Token”，而是按人、按岗位来配。

这其实就是在说，AI资源也是资源，需要像人力、预算一样去管理和分配。

现实是，很多公司现在的做法还是”大锅饭”——要么全员用最强的模型，要么完全不管，让员工自己随便用。这两种做法都会出问题。

这不是理论，已经有公司在认真算这笔账了。

一家叫remio的创业公司，设计了这样一套机制：每人每月400元基础额度，超出部分公司报销90%，剩下10%员工自付。听起来有点抠，但背后的逻辑很清醒——全额报销的话，员工可能会开着AI循环一直跑，一个月几万块钱都能烧出去，但产出和消耗完全不成比例。那10%的自付，不是为了省钱，是为了让每个人在按下”运行”之前，多想一秒钟。

后者则是浪费。同一个模型，不同人用，效果天差地别。有公司观察到，让CTO用顶级模型做架构决策，ROI极高；但让所有人都用同一个模型做同样的事，反而平摊了这个优势。

所以更合理的做法，是根据任务和人来匹配模型——

简单的、重复的、对质量要求不高的任务，让它找到自己的甜蜜点，用便宜的模型就够了。真正复杂的、高价值的判断，才值得用最强的模型，付最高的时薪。

别用F1赛车去买菜。但要做一件真正重要的事，也别舍不得油门。

尾声

Toby Ord这篇文章，我反复想的不是那些数字，而是他问的那个问题本身。

AI能力的趋势，每个人都在追。但成本的趋势，几乎没人在问。

不是因为它不重要，而是因为它不好看——它不像”AI能完成人类两小时的任务了”这种标题那么令人兴奋。

但它很可能才是决定AI真正落地速度的那个变量。

AI越强，不一定越便宜。有时候，越强越贵。