别人都在做软件里的Agent,马斯克在做能走进工厂的Agent

别人都在做软件里的Agent，马斯克在做能走进工厂的Agent

一

这两年AI圈最热的词是agent。OpenAI、Anthropic、谷歌，每家都在讲同一个故事，让模型不只是回答问题，而是能调用工具、能多步推理、能替你把一件事从头干到尾。Claude Code、各种CLI、各种自动化workflow，本质都是这件事，把智能装进软件流程里，让它自己跑起来。

在这个故事里，马斯克的存在感其实很弱。

你很少听他像Sam Altman那样系统地谈agent的产品形态，谈什么自主性层级、什么human in the loop。今年5月xAI才憋出一个Grok Build，一个对标Claude Code的coding agent，beta版每月300美元起。这件事本身就说明问题，连马斯克自己都承认xAI在coding上落后了，一位高管直接给员工下指标，让Grok去追平Claude在各项任务上的表现。在软件agent这条赛道上，他是个迟到的追赶者，不是领跑的人。

如果你只看这条赛道，会得出一个结论，马斯克在agent这件事上没什么独到的，甚至有点掉队。

这个结论是错的，而且错得很有代表性。它错在用别人定义的agent去衡量马斯克，而马斯克根本不在那个定义里玩。

二

要理解马斯克怎么看agent，得先承认一件反直觉的事，他谈得最少，但他做的是全行业最重的agent。

重在哪。在跟Dwarkesh Patel那场访谈里，他讲Optimus，说这个机器人要从物理第一性原理出发干活，规模化，而且没有供应链依赖。他甚至给机器人的智能下了个很糙但很准的定义，说robot的AI主要就是两条数据流的压缩和关联。这句话听着像技术行话，但翻译过来意思很清楚，他要的不是一个会聊天、会写代码、会帮你订机票的agent，他要的是一个能在物理世界里替代人类双手的agent。

这两种agent的差别，不是程度差别，是维度差别。

软件agent活在比特世界里。它再聪明，调用的也是API、文件、网页、终端，干的是信息处理的活。它的边界是屏幕。马斯克在同一场访谈里说了句更狠的，他说今年内如果数字人类仿真还没被解决，他会很意外。所谓数字人类仿真，他自己的定义是，能不能做任何一个坐在电脑前的人能做的事。注意，这句话里软件agent只是个起点，是基线，是理所当然今年就该被解决掉的东西。他真正的兴奋点在屏幕之外。

Optimus就是屏幕之外那个agent。它要进工厂、进家庭、拧螺丝、搬东西、照看老人。它干的活，是全世界绝大多数人每天靠双手在干的活。马斯克对agent的判断，从一开始就不在软件里，在物理世界里。他认为信息处理的自动化是个会被很快解决的子问题，真正的大蛋糕是体力劳动的自动化，那是一个比所有软件agent加起来都大无数倍的市场。

所以当整个行业在卷怎么让agent更好地操作软件时，马斯克的注意力在怎么让agent长出能干活的身体。他不是掉队，他是压根没在那条队里。

三

理解了这一层，再看他那一堆看似在追赶的动作，逻辑就顺了。

Grok Build这种coding agent，对马斯克来说不是目的，是供给侧的工具。他要造Optimus，要训出能控制机器人身体的模型，需要海量的工程能力。一个能自己写代码、自己调试的agent，本质是给他那条物理agent生产线提供研发杠杆。他追Claude Code，不是想在开发者工具市场分一杯羹，是因为没有强力的coding agent，他后面那套物理agent就跑不快。手段和目的，在他这里分得很清楚。

再看他对模型本身的判断。他说Grok要去发现新物理、发现新技术，说within two years几乎必然。把这话和Optimus放一起看，你会发现他对agent的终极想象，是一个既能在比特世界里发现规律、又能在物理世界里把规律变成产品的闭环智能体。模型负责认知，机器人负责执行，中间用他自己的芯片、自己的数据、自己的能源串起来。这是一个完整的、从思考到动手的agent，不是一个困在对话框里的助手。

这里就能看出马斯克agent观最核心的那条第一性原理。他不把agent理解成一个更聪明的软件，他把agent理解成劳动力本身。软件agent替代的是白领坐在电脑前的那部分劳动，物理agent替代的是更广大的体力劳动。他赌的是后者，因为后者的市场是按全球GDP里的人力成本来算的，那个数字大到任何软件市场都无法相比。他在那些访谈里反复算的那笔账，本质就是这笔账，当劳动力的供给可以被无限复制的机器人填满时，传统经济学里关于稀缺和成本的假设会被整个掀翻。

四

讲到这必须把另一面摆出来，不然又成了单方面捧。

马斯克的agent叙事里有大量空头支票。他说Grok今年就能发现新物理，说数字人类仿真今年内解决，说2026年实现AGI。这些时间表的兑现率，了解他的人心里都有数。Grok 5从Q1跳票到Q2，xAI被SpaceX收购后联合创始人走光、他自己承认要从地基重建，这些都不是一个在agent竞赛里游刃有余的姿态。他做物理agent的雄心是真的，但他把雄心包装成确定性时间表的习惯，也是真的。

更值得我们这些做实际落地的人警惕的，是物理agent的难度被他系统性地低估了。软件agent的试错成本接近于零，写错一行代码回滚就行。物理agent错一下，可能是真砸坏一个零件、真撞到一个人。从能聊天到能在真实工厂里稳定干活，中间隔的不是几个版本号，是无数个在演示视频里看不见的边缘情况。马斯克最擅长的就是用一段惊艳的demo让人忽略掉demo和量产之间那条鸿沟。Optimus的每一次跳舞、倒水、叠衣服，都很可能是精心挑选过的最好一次。

但这不影响他那个底层判断的价值。判断对不对，和时间表准不准，是两码事。

五

回到我们自己。

对在AI浪潮里做交付的人，马斯克这套agent观最值钱的不是结论，是他选战场的方法。整个行业的注意力被软件agent吸走的时候，他冷静地判断那只是基线、是会被很快解决的子问题，然后把资源压到一个更难、更慢、但市场大得多的方向上。他不跟着别人的定义跑。

这对我们做agent落地是个提醒。今天大多数人理解的agent，还停在让模型替我们操作软件这一层，写文档、查资料、跑流程。这一层有价值，但这一层也正在迅速变成基础设施，变成人人都有的能力，护城河会越来越浅。真正稀缺的，是把agent接到具体的、别人接不进去的真实场景里，那个场景可能是一条产线、一个审计流程、一套行业里没人愿意碰的脏活。马斯克接的是物理世界这个最脏最重的场景。我们接不了那么大，但道理是一样的，越往物理世界、往真实业务的深处走，agent的价值越不容易被抹平。

软件里的agent，终会变得像水电一样普通。能走进工厂、走进车间、走进那些没人愿意弯腰的地方的agent，才是马斯克真正在赌的东西。他可能赌错时间，但他选的方向，值得每一个做这行的人认真想一遍，自己手里的agent，到底是在比特世界里锦上添花，还是真的走进了哪个别人进不去的地方。