当前时间: 2026-04-24 07:34:04
更新时间: 2026-04-24
分类:软件教程
评论(0)
所有人都在看AI能力,没人算过它的时薪
我们每天都在听”AI越来越便宜”——Claude做个简单任务,可能真的只要几毛钱;和几年前相比,主流模型的价格也确实降了很多。这些都是真的。
但我最近看到一篇文章,让我觉得这件事没那么简单。作者叫Toby Ord,牛津大学的哲学家,写过《The Precipice》——一本专门研究人类存亡风险的书。他不是AI圈内人,是个站在外部、独立审视这个行业的严肃学者。
他问了一个看起来很基础、但几乎没人认真算过的问题:
这篇文章我反复看了好几遍。越看越觉得,这个问题问得太准了。
大多数时候,说的是”每百万token多少钱”,或者”这个任务花了我几分钱”。这是从AI的角度算成本。
他的方法是这样的——如果有一件事,一个人类工程师需要N小时完成,你让AI来做,总共花了多少钱?把这个钱除以N,就是这个AI的”时薪”。
这个换算看起来简单,但一旦换过来,很多事情就不一样了。
因为不管是雇人还是买机器,最终算的都是:花这些钱,能干多少小时的活。用这把尺子量AI,才是在做真正的成本比较——AI到底有没有比人便宜?便宜多少?在什么情况下便宜,在什么情况下反而更贵?
Toby Ord把这个问题认真算了一遍。结果让他自己也吓了一跳。
他的计算基础来自METR——一个专门评估AI能力的独立机构。METR有一套测量方式,叫”时间阈值”:给AI一批任务,看它能以50%的成功率完成”人类需要多长时间才能完成”的任务。这个数字越大,说明AI能独立搞定的事情越复杂。
Toby Ord拿着METR的数据,把它换算成时薪,列了一张表。
简单任务那头,AI确实很便宜。Claude 3.5 Sonnet处理短任务,时薪大约$0.40,连人类工程师的零头都不到。
到这里,你可能觉得没什么大不了——$0.40,便宜得很,符合预期。
Grok 4在简单任务上同样只要$0.40,但一旦推到中等难度的任务,时薪会跳到$13。
然后是GPT-5。起步时薪$13,推到它能力边界的任务时,时薪达到$120。
然后是o3。o3的起步时薪就已经是$40,推到它能处理的最复杂任务时,时薪涨到$350。
Toby Ord算完这组数字之后,愣了一下。他在文章里写道:
“AI完成这些任务的时薪,不可能比人类更贵吧?不可能吧?“
不只是”可能”——o3的峰值时薪,是人类的将近3倍。而且,这还是在它有50%概率失败的前提下。
看到这组数字,你可能会问:不对啊,AI不是一直在变便宜吗?每隔几个月就有模型降价,怎么反而越来越贵了?
这就要说到Toby Ord发现的一个关键问题——我们平时看到的AI能力数据,其实是用一种特殊的方式测出来的。
METR的测试方式是:不计成本地堆算力,直到模型性能跑到天花板,然后记下这个极限数字。我们经常看到的”AI现在能独立完成人类需要X小时的任务了”,说的就是这个极限。
Toby Ord发现,每个模型都有一个性价比最高的”甜蜜点”——在这个区间里,多花一点钱,能力提升明显。但一旦过了这个点,要再往上提升一点点,需要付出的成本就急剧上涨。他在原文里提到,有些模型在甜蜜点之外,时薪会涨到10倍乃至100倍,但能力只往上挪了一点点。
而METR测的那个数字,恰恰是模型跑到极限时的表现——深深超过甜蜜点之后的结果。
所以当你看到”AI能力每年提升3倍”这个结论——这是Toby Ord写这篇文章时METR数据呈现的趋势,而2026年的最新分析显示,这个增速已经加快到约每年10倍——要多问一句:这3倍,是花了多少钱换来的?
Toby Ord把这个现象叫做F1赛车效应。F1赛车能跑到350公里每小时,这是真的;但没有人拿F1上下班。METR的趋势线,展示的是”什么是可能的”,不是”什么是实用的”。如果成本的增速持续快于能力的增速,这张成绩单会越来越像F1排行榜——看起来很厉害,但和你的实际需求越来越远。
他的结论是:有证据显示,AI的时薪正在随着模型能力的提升而指数级上涨。AI真正能以经济可行的成本替代人类的时间点,可能比所有人预期的都要晚。
这篇文章写到这里,我不想用”AI要变贵了,大家小心”来收尾。因为这不是重点。
重点是:同一件事,用不同的模型来做,成本可以差100倍。
这让我想到今年3月黄仁勋在GTC大会上说的一句话。他说,未来他们公司的每一位工程师都需要有一份年度Token预算——工程师年薪几十万美元,他会额外再给他们配上相当于年薪一半价值的Token,因为这能让工程师的效率提升10倍。
注意这句话里的逻辑:不是”给所有人一样多的Token”,而是按人、按岗位来配。
这其实就是在说,AI资源也是资源,需要像人力、预算一样去管理和分配。
现实是,很多公司现在的做法还是”大锅饭”——要么全员用最强的模型,要么完全不管,让员工自己随便用。这两种做法都会出问题。
一家叫remio的创业公司,设计了这样一套机制:每人每月400元基础额度,超出部分公司报销90%,剩下10%员工自付。听起来有点抠,但背后的逻辑很清醒——全额报销的话,员工可能会开着AI循环一直跑,一个月几万块钱都能烧出去,但产出和消耗完全不成比例。那10%的自付,不是为了省钱,是为了让每个人在按下”运行”之前,多想一秒钟。
后者则是浪费。同一个模型,不同人用,效果天差地别。有公司观察到,让CTO用顶级模型做架构决策,ROI极高;但让所有人都用同一个模型做同样的事,反而平摊了这个优势。
简单的、重复的、对质量要求不高的任务,让它找到自己的甜蜜点,用便宜的模型就够了。真正复杂的、高价值的判断,才值得用最强的模型,付最高的时薪。
别用F1赛车去买菜。但要做一件真正重要的事,也别舍不得油门。
Toby Ord这篇文章,我反复想的不是那些数字,而是他问的那个问题本身。
AI能力的趋势,每个人都在追。但成本的趋势,几乎没人在问。
不是因为它不重要,而是因为它不好看——它不像”AI能完成人类两小时的任务了”这种标题那么令人兴奋。