这可能是我最近最想聊的一个问题。
很多人对 Agent 的期待,被一类产品迅速点燃了。
OpenClaw 这种东西一出来,大家会很自然产生一种感觉:它能接 WhatsApp、Telegram、Slack、Discord 等各种聊天渠道,能挂技能,能跑定时任务,能配审批,能接工具,甚至还能做多端接入。
一个"真正开始上班"的智能体,好像已经离我们很近了。
于是问题来了:到底是我们低估了大模型的能力,还是高估了 Agent 框架的能力?
我的答案是:两者都有。
但如果只能选一个更核心的误判——我会说,我们真正高估的,不只是某个框架,而是"接上一个 Agent 框架,落地就完成了"这件事。
框架能做什么,不能做什么

框架是连接层,不是业务层
认真看过 OpenClaw 文档的人会发现一个有意思的细节。
官方反复强调的核心,其实不是"帮企业完成复杂业务闭环",而是:它是运行在你自己设备上的个人 AI assistant,Gateway 是控制平面,重点是连接渠道、配置模型和工具、保证安全默认值。
官方当前优先级也写得很明确:安全和默认安全、Bug 修复与稳定性、安装和首次使用可靠性。
这说明 OpenClaw 最擅长的,是回答这些问题:
• 消息从哪里来,回哪里去
• 哪个账号收,哪个 agent 处理
• 哪些命令能执行,哪些要审批
• 怎么挂技能,怎么跑定时任务,怎么接 webhook
换句话说:它是一个很强的连接层、运行层、控制层。
但它不是你的业务理解层。不是你的数据治理层。不是你的流程设计层。更不是你的结果负责层。
OpenClaw 很强,但它强在"让 agent 能接起来、跑起来",不等于它能"把业务做起来"。
大模型,其实被低估了
反过来看,很多团队其实一直在低估大模型。
低估的不是"它会不会聊天",而是低估了它在合适的上下文、清晰的工具设计、稳定的约束之下,能承担多少真实工作。
Anthropic 在官方文章里讲得很直接:他们看到最成功的 agent 实现,往往不是最复杂的框架,而是一些简单、可组合的模式。而且 agent 的效果,在很大程度上取决于工具怎么写、上下文怎么给,而不是框架名词有多高级。
很多团队的默认思路是:模型不够强,所以要靠框架补;框架功能多,所以落地问题就解决了。
但真实情况往往是:
模型其实已经够强了。
真正差的是——上下文设计、工具边界、系统接入、状态管理、异常兜底、权限控制、结果校验。
模型并不是不能上班。很多时候,是我们没有把岗位说明书、办公系统、权限卡、交接机制、考核口径给它配齐。
真正难的,从来不是"接入"

真正难的是这些工程问题
OpenClaw 这类产品的演示效果,太容易让人兴奋了。
你看到的是:它能收消息、回消息;能接命令、调工具;能跑 schedule、能配 skill;甚至还能跨渠道长期在线。
于是你会下意识觉得:剩下的不就是"接入业务"了吗?
但真正难的,从来不是把模型接进一个聊天入口。
真正难的是这些:
• 它读到的数据是不是干净的
• 调用的工具是不是稳定且可恢复的
• 多步流程失败后怎么回滚
• 审批在什么节点触发
• 权限是谁授予的,结果由谁验收
• 出错以后谁兜底
• 系统状态和模型理解冲突时,以谁为准
这些问题,任何框架都没法替你回答。
因为这本来就不是一个 Gateway 或 Agent runtime 该替你回答的问题。它能做的,是给你一个越来越完整的运行外壳。
而"要不要做这件事""怎么做才符合业务规则""结果算成功还是失败",这些依然是你的系统工程。
抽象层级,放错了
很多人对 Agent 的误判,本质上是抽象层级放错了。
把框架当成了业务落地平台;把模型当成了不稳定的聊天玩具;却低估了中间那层真正决定成败的东西——工程化。
所以如果问我,今天大量 Agent 项目做不起来,主要原因是什么——
我不会先怪模型。
我反而会说:很多团队低估了大模型"在明确约束下干活"的能力,同时又高估了框架"替你补齐业务工程"的能力。
一句话总结

分水岭不是框架,而是工程化能力
回到最开始的问题:是我们低估了大模型,还是高估了 Agent 框架?
我的答案是:
我们既低估了模型在"被正确组织起来之后"的生产力,也高估了框架在"业务落地最后一公里"上的包办能力。
但如果只能保留一句话,我更想写成:
不要把对 AI 落地的希望,误投给框架。
框架解决的是"怎么连起来、怎么跑起来";模型决定的是"能不能理解和推理";而真正决定它能不能上班的,是你有没有把数据、工具、流程、权限、监控、兜底这些工程问题补齐。
下一阶段,真正的分水岭在哪里
这也是我想开这个号的原因。
我不太想继续聊那些很空的概念了。我更想聊的是:
• 模型什么时候已经够用了
• 框架到底能帮你做到哪一步
• 系统接入为什么永远比 Demo 更难
• 数据平台、工具设计、流程编排、权限边界、异常恢复、评估机制,怎么决定一个智能体是在"表演",还是在"上班"
因为我越来越确定一件事:AI 落地真正的分水岭,不是你用了哪个框架,而是你能不能把模型能力翻译成一个能在真实系统里持续交付结果的工程体系。
你对这个问题有什么判断?欢迎留言聊聊。
夜雨聆风