大老板开门见山:OpenClaw为啥在国内火得一塌糊涂——因为它跟咱们的DeepSeek一样,特别省算力,特别适合咱们中国“缺卡”(就是缺高性能显卡)的现状。
一、财务危机:为啥让AI干个活,比请个实习生还贵?
先说说现在的大模型(比如GPT-4、文心一言这些)是怎么工作的。
平时你跟它聊天,你问一句它答一句,就像个“问答机器人”,消耗不大。但一旦你让它帮你办事——比如“帮我查一下下周三去北京的机票,顺便对比一下价格,然后定一张最便宜的”——它就变成了一个“智能体(Agent)”,开始疯狂烧钱。
1. 它得不停地“自言自语”
Agent的工作方式很像一个有点强迫症的人:
先想“我要干啥” → 然后去做(比如打开浏览器) → 看看结果 → 再想“下一步怎么办” → 再去做……
每做一步,它都得把之前所有的想法、搜索结果、网页内容统统再读一遍。就像你每打一个电话,都得把从上班第一天起的所有聊天记录翻一遍。这Token消耗(你可以理解为算力账单)就像滚雪球一样越滚越大。
2. 它得随身带着一本厚厚的“说明书”
为了让AI知道怎么用各种工具(比如怎么查天气、怎么登录网站),开发者得在它的脑子里塞一本厚厚的“员工手册”。每次对话,它都得先读一遍手册,然后才开始干活。这手册本身就占一大笔Token,相当于还没干活呢,钱已经花出去了。
3. 请了个“哲学家”干“接线员”的活
现在最聪明的大模型,都是为“深度思考”设计的。你让它去点个网页按钮,就像请一位诺贝尔文学奖得主去接客服电话——他不仅干得慢,还老爱在电话里给你分析人生,每一句废话都在烧你的钱。
所以,不是AI懒,是目前的干活方式太笨重了,尤其在中国,高端显卡(也就是“卡”)本来就紧缺,算力贵得很,这么个烧法谁也扛不住。
二、效率革命:OpenClaw为啥火了?因为它太会“省钱”了!
就在大家为算力发愁的时候,一个叫OpenClaw的智能体框架火了。它为啥火?因为它跟DeepSeek一样,核心就是“省”——省Token,省算力,特别适合咱们显卡不够用的国情。
它怎么省的呢?有点像给AI请了个“项目经理”和“实习生”分开干活:
· 技能“按需加载”,不用随身背手册
OpenClaw不再把厚厚的“员工手册”一次性塞给AI。它搞了个“插件包”:AI需要搜索时才加载搜索说明书,需要画图时才加载画图指令。这就好比你要用Excel才打开Excel,不用天天开着几十个软件占内存。首包Token大幅减少,第一笔账单就省下来了。
· 会“压缩”废话,只记干货
AI干活时常常要读一堆网页源码,里面全是乱七八糟的代码。OpenClaw会在本地把这些源码“提炼”成几句话,只把最有用的信息传给大模型。就像你读书时只画重点,不抄整本书。这样模型只处理干货,Token自然花得少了。
· 分层干活:大脑只负责想,手脚自己动
它把任务分成了两层:昂贵的大模型只负责“出主意”(比如规划步骤),而具体的“动手”操作(比如点鼠标、复制文件)交给本地的小脚本或者轻量引擎。这样大模型不用事无巨细地管,不该花的Token一分不花。
说白了,OpenClaw就是让AI学会“过日子”,每一分算力都花在刀刃上。这正是中国AI公司梦寐以求的东西——毕竟咱们卡少,必须精打细算。
三、小龙虾的进化方向:从智能驾驶借来“肌肉记忆”
就在大家琢磨怎么进一步省Token时,智能驾驶行业给了我们一个新启发:VLA模型(视觉-语言-动作模型)。
如果你听说过特斯拉的自动驾驶或者谷歌的机器人,你会发现它们干活的方式跟现在的Agent完全不一样。
1. 什么是VLA?就是“看一眼,直接干”
现在的Agent是靠“读文字”来理解世界的,而VLA是靠“看图”和“直觉”来行动的。
· V(视觉):实时看见路况(或者电脑屏幕)。
· L(语言):听懂指令,比如“前面红绿灯右转”。
· A(动作):直接输出方向盘角度或者鼠标点击位置。
它不再需要把“我看到了行人,我应该踩刹车”这句话写出来,而是直接一脚刹车踩下去。这就是“端到端”的直觉反应,效率极高。
2. 为啥VLA是“执行”的终极答案?
因为它跳过了啰嗦的文字中间层。就像你骑自行车,不会在脑子里默念“我现在要向左倾斜5度”,直接身体就动了。这种“肌肉记忆”式的执行,既快又省钱。
四、降维打击:把自动驾驶搬到电脑桌面会怎样?
既然VLA在车上这么好用,那把它搬到办公室里呢?这就是现在硅谷最火的方向:UI-VLA(屏幕上的自动驾驶)。
1. 像开车一样“开软件”
以前的自动办公Agent,得去读网页的HTML代码,网页一改版,它就傻了。
但UI-VLA像人一样“看图办事”:它看的是屏幕截图,点的是坐标位置。它不需要懂代码,只需要认识“保存”图标长啥样。就算软件更新了界面,只要图标还在,它就能像老司机一样精准操作。
2. 这才是真正的Token救星
这样一来,AI再也不用读上万字的说明书来学怎么用Excel了。原本需要几千Token描述的操作步骤,现在变成了几组坐标。Token密度极大提升,废话率降为零。对于缺卡的中国开发者来说,这意味着同样的算力能跑更多任务,简直是雪中送炭。
3. 办公室里的“真·机器人”
这种思路还能延伸到物理世界:让机器人通过视觉直接感知环境,然后动起来。比如帮你拿外卖、修打印机——这些非标准化的活儿,以前机器人学不会,现在VLA模型让它像人一样“看到就做到”。
五、结语:AI正在从“哲学家”变成“本能助手”
我们正处在AI的一次大转型中:
· 以前,AI追求像哲学家一样深度思考(靠大模型);
· 现在,AI追求像工人一样熟练执行(靠VLA)。
未来的AI会是分层协作的:
· 规划层(大脑):由昂贵的大模型负责,思考“为什么做”。
· 执行层(肌肉):由轻量的动作模型负责,解决“怎么做”。
这种分层架构,将彻底终结“AI干活太烧钱”的时代。尤其在中国,算力资源宝贵,像DeepSeek、OpenClaw这样省算力的技术,会让我们用更少的卡做更多的事。未来,你电脑里的“数字员工”可能只需要几分钱,就能帮你处理一整天繁琐的报表和邮件。
AI正在从“会聊天的朋友”变成“本能反应的助手”。这场关于效率与成本的战役,终点将是一个人人都能用得起AI的数字世界。
夜雨聆风