
最近,OpenClaw 火了。
它火,不只是因为大家又发现了一个新工具,更重要的是,它让很多人第一次更直观地意识到一件事:
AI 可能真的开始从“会聊天”,走向“会工作”了。
不过这里要先说清楚:
OpenClaw 本身不是大模型。
它更像一个 agent 框架,负责把大模型、工具调用、执行环境和工作流串起来,也就是说,OpenClaw 能不能把任务真正做起来,底层依然高度依赖大模型本身的能力。模型越强,推理越稳,代码能力越好,这类框架就越接近真正的“自动工作”。
也正因为这样,一个更值得讨论的问题来了:
如果 OpenClaw 代表的是“自动工作”的方向,那国内大模型离这一步还有多远?
1.什么叫“自动工作”?
今天很多人觉得 AI 已经很强了,能写文案,能做总结,能解释概念,能回答问题,甚至还能写代码。但这些能力,严格来说,更多还是“辅助”,真正的“自动工作”,不是帮你润色一句话,也不是给你一个建议。而是它能像一个数字员工一样:
理解目标 拆解任务 调用工具 持续执行 根据反馈修正 最后交付结果
如果放到编程场景里,这个定义会更直观。它不只是补几行代码,不只是解释一个 bug,而是能真正去读项目、改代码、跑测试、修问题,甚至连续多轮把一项任务推进下去。从这个标准看,今天最接近“自动工作”的,已经不是传统聊天机器人了,而是像 Codex、Claude Code 这类更偏 agent 化的产品。
它们真正强的地方,不只是更聪明,而是已经开始进入真实工作现场:
能进终端 能进 IDE 能读写文件 能执行命令 能根据结果继续往下推进
说白了,它不是在“回答你”,而是在“替你干”。
2.国内模型,其实已经追得很快了
如果只看基础模型能力,国内并不弱,甚至进步非常快。
DeepSeek 在推理和代码方向上的表现很突出 Kimi 在长文本和信息整合方面有明确优势 豆包更偏产品化和大规模落地 通义千问依托生态优势,覆盖面很广
所以,如果只是让模型写一段代码、解释一个报错、写一篇文章,国内很多模型其实已经相当够用了。
但问题在于:
会回答,不等于会工作。
这才是国内模型和“自动工作”之间,最关键的差距。
3.真正的差距,主要在三层
3.1 推理和代码能力
这一层国内已经追得不慢,至少在很多单点任务上,国内模型已经能给出不错的结果。
3.2 工具调用和环境执行能力
真正的自动工作,不可能永远停留在聊天框里,它必须能调用终端、编辑器、浏览器、知识库和工作流系统。而这一层,国外目前还是明显更成熟。这也是为什么很多开发者会觉得,Codex、Claude Code,甚至 OpenClaw 这类 agent 方案,更接近“能干活”的状态。不是因为它们每次都最聪明,而是因为它们已经不再只是一个模型,而是一整套“让 AI 进入工作现场”的机制。
3.3 稳定性和闭环能力
这也是最容易被低估的一层。自动工作最难的,不是第一次做出,而是能不能持续、稳定、可验证地把事情做完。比如:
代码改坏了,能不能自己修回来 测试失败了,能不能继续排查 任务跑偏了,能不能重新拉回目标
很多 AI 在单轮交互里看起来很强,但一进入复杂任务、多轮执行、真实环境,就容易暴露问题。
所以决定自动工作上限的,最终不是它“会不会回答”,而是它“能不能稳定交付”。
4.国内大模型,离自动工作还有多远?
如果一定要给一个判断,我的结论是:
离高质量辅助已经很近,离独立完成工作还有明显距离。
换句话说,今天的国内大模型已经非常适合做“副驾驶”,你让它帮你想、帮你写、帮你查、帮你改,它能帮上很多忙,但如果你想把一个复杂任务完整交给它,然后等它独立把结果交回来,大多数时候,它还做不到。所以,国内大模型离自动工作还有多远?我认为,差的已经不只是参数、榜单或者单次回答效果。而是:
持续推理 工具调用 真实环境执行 结果验证 错误回退与修正
这一整套 agent 能力,只有这些能力补齐,AI 才不只是一个“会聊天的助手”,而会真正变成一个“能交付结果的员工”。
总结
OpenClaw 这波火,真正值得关注的,不是又多了一个热门产品。
它真正提醒行业的一件事是:
下一阶段,大模型比的不是谁更会说,而是谁更会干。
谁能把模型能力、工具调用、执行环境和工作闭环真正打通,谁才更接近自动工作。
而这,很可能就是未来几年 AI 竞争最核心的分水岭。
夜雨聆风