别人都在做软件里的Agent,马斯克在做能走进工厂的Agent
一
这两年AI圈最热的词是agent。OpenAI、Anthropic、谷歌,每家都在讲同一个故事,让模型不只是回答问题,而是能调用工具、能多步推理、能替你把一件事从头干到尾。Claude Code、各种CLI、各种自动化workflow,本质都是这件事,把智能装进软件流程里,让它自己跑起来。
在这个故事里,马斯克的存在感其实很弱。
你很少听他像Sam Altman那样系统地谈agent的产品形态,谈什么自主性层级、什么human in the loop。今年5月xAI才憋出一个Grok Build,一个对标Claude Code的coding agent,beta版每月300美元起。这件事本身就说明问题,连马斯克自己都承认xAI在coding上落后了,一位高管直接给员工下指标,让Grok去追平Claude在各项任务上的表现。在软件agent这条赛道上,他是个迟到的追赶者,不是领跑的人。
如果你只看这条赛道,会得出一个结论,马斯克在agent这件事上没什么独到的,甚至有点掉队。
这个结论是错的,而且错得很有代表性。它错在用别人定义的agent去衡量马斯克,而马斯克根本不在那个定义里玩。
二
要理解马斯克怎么看agent,得先承认一件反直觉的事,他谈得最少,但他做的是全行业最重的agent。
重在哪。在跟Dwarkesh Patel那场访谈里,他讲Optimus,说这个机器人要从物理第一性原理出发干活,规模化,而且没有供应链依赖。他甚至给机器人的智能下了个很糙但很准的定义,说robot的AI主要就是两条数据流的压缩和关联。这句话听着像技术行话,但翻译过来意思很清楚,他要的不是一个会聊天、会写代码、会帮你订机票的agent,他要的是一个能在物理世界里替代人类双手的agent。
这两种agent的差别,不是程度差别,是维度差别。
软件agent活在比特世界里。它再聪明,调用的也是API、文件、网页、终端,干的是信息处理的活。它的边界是屏幕。马斯克在同一场访谈里说了句更狠的,他说今年内如果数字人类仿真还没被解决,他会很意外。所谓数字人类仿真,他自己的定义是,能不能做任何一个坐在电脑前的人能做的事。注意,这句话里软件agent只是个起点,是基线,是理所当然今年就该被解决掉的东西。他真正的兴奋点在屏幕之外。
Optimus就是屏幕之外那个agent。它要进工厂、进家庭、拧螺丝、搬东西、照看老人。它干的活,是全世界绝大多数人每天靠双手在干的活。马斯克对agent的判断,从一开始就不在软件里,在物理世界里。他认为信息处理的自动化是个会被很快解决的子问题,真正的大蛋糕是体力劳动的自动化,那是一个比所有软件agent加起来都大无数倍的市场。
所以当整个行业在卷怎么让agent更好地操作软件时,马斯克的注意力在怎么让agent长出能干活的身体。他不是掉队,他是压根没在那条队里。
三
理解了这一层,再看他那一堆看似在追赶的动作,逻辑就顺了。
Grok Build这种coding agent,对马斯克来说不是目的,是供给侧的工具。他要造Optimus,要训出能控制机器人身体的模型,需要海量的工程能力。一个能自己写代码、自己调试的agent,本质是给他那条物理agent生产线提供研发杠杆。他追Claude Code,不是想在开发者工具市场分一杯羹,是因为没有强力的coding agent,他后面那套物理agent就跑不快。手段和目的,在他这里分得很清楚。
再看他对模型本身的判断。他说Grok要去发现新物理、发现新技术,说within two years几乎必然。把这话和Optimus放一起看,你会发现他对agent的终极想象,是一个既能在比特世界里发现规律、又能在物理世界里把规律变成产品的闭环智能体。模型负责认知,机器人负责执行,中间用他自己的芯片、自己的数据、自己的能源串起来。这是一个完整的、从思考到动手的agent,不是一个困在对话框里的助手。
这里就能看出马斯克agent观最核心的那条第一性原理。他不把agent理解成一个更聪明的软件,他把agent理解成劳动力本身。软件agent替代的是白领坐在电脑前的那部分劳动,物理agent替代的是更广大的体力劳动。他赌的是后者,因为后者的市场是按全球GDP里的人力成本来算的,那个数字大到任何软件市场都无法相比。他在那些访谈里反复算的那笔账,本质就是这笔账,当劳动力的供给可以被无限复制的机器人填满时,传统经济学里关于稀缺和成本的假设会被整个掀翻。
四
讲到这必须把另一面摆出来,不然又成了单方面捧。
马斯克的agent叙事里有大量空头支票。他说Grok今年就能发现新物理,说数字人类仿真今年内解决,说2026年实现AGI。这些时间表的兑现率,了解他的人心里都有数。Grok 5从Q1跳票到Q2,xAI被SpaceX收购后联合创始人走光、他自己承认要从地基重建,这些都不是一个在agent竞赛里游刃有余的姿态。他做物理agent的雄心是真的,但他把雄心包装成确定性时间表的习惯,也是真的。
更值得我们这些做实际落地的人警惕的,是物理agent的难度被他系统性地低估了。软件agent的试错成本接近于零,写错一行代码回滚就行。物理agent错一下,可能是真砸坏一个零件、真撞到一个人。从能聊天到能在真实工厂里稳定干活,中间隔的不是几个版本号,是无数个在演示视频里看不见的边缘情况。马斯克最擅长的就是用一段惊艳的demo让人忽略掉demo和量产之间那条鸿沟。Optimus的每一次跳舞、倒水、叠衣服,都很可能是精心挑选过的最好一次。
但这不影响他那个底层判断的价值。判断对不对,和时间表准不准,是两码事。
五
回到我们自己。
对在AI浪潮里做交付的人,马斯克这套agent观最值钱的不是结论,是他选战场的方法。整个行业的注意力被软件agent吸走的时候,他冷静地判断那只是基线、是会被很快解决的子问题,然后把资源压到一个更难、更慢、但市场大得多的方向上。他不跟着别人的定义跑。
这对我们做agent落地是个提醒。今天大多数人理解的agent,还停在让模型替我们操作软件这一层,写文档、查资料、跑流程。这一层有价值,但这一层也正在迅速变成基础设施,变成人人都有的能力,护城河会越来越浅。真正稀缺的,是把agent接到具体的、别人接不进去的真实场景里,那个场景可能是一条产线、一个审计流程、一套行业里没人愿意碰的脏活。马斯克接的是物理世界这个最脏最重的场景。我们接不了那么大,但道理是一样的,越往物理世界、往真实业务的深处走,agent的价值越不容易被抹平。
软件里的agent,终会变得像水电一样普通。能走进工厂、走进车间、走进那些没人愿意弯腰的地方的agent,才是马斯克真正在赌的东西。他可能赌错时间,但他选的方向,值得每一个做这行的人认真想一遍,自己手里的agent,到底是在比特世界里锦上添花,还是真的走进了哪个别人进不去的地方。
夜雨聆风