OpenClaw 为什么不好用?一个重度用户的 7 条真心话

我用 OpenClaw 跑了 20 多个 Agent，管理公众号、监控服务器、自动写文章。听起来很酷对吧？但在这之前，我经历了连续一周每天凌晨三点还在跟它死磕的日子。全网都在告诉你"一天就搞定了"——说实话，那些人要么是天才，要么在撒谎。

这篇文章不是黑 OpenClaw。它确实改变了我的工作方式。但如果你正准备入坑，我觉得你应该先听听真话。

一、部署这关，就劝退了一半人

OpenClaw 不是下载一个 App 就能用的东西。你需要一台服务器、Node.js 环境、命令行操作能力，还得自己配模型 API。CSDN 有个实测用户写得很直白："前两周花 3 天踩遍所有坑，从安装失败到模型调用报错，从权限问题到安全告警，一度想直接卸载。"

更坑的是版本冲突。老版本 clawdbot 和新版本 openclaw 会同时抢端口 18789，导致网关无限重启。你得手动停掉老服务、卸载旧包、清理残留文件——这些操作对非技术用户来说，每一步都是劝退。

百度百科的数据更有意思：代装服务 50 到 500 元不等，上门安装通常 300 到 500 元。一个"免费开源"的工具，装个机器就要花几百块，这事儿本身就说明了问题。

二、国内云服务商的"阉割版"，用了等于没用

部分国内云服务商提供的 OpenClaw 镜像不给 root 权限。这意味着什么？你没法安装系统级依赖，没法改网络配置，没法操作端口，连 sudo 都跑不了。

Agent 的核心能力就是"执行"——读写文件、跑命令、调 API。没有 root 权限的 OpenClaw，就像一个被绑住手脚的拳击手，空有一身本事但什么都干不了。阿里云 FAQ 还提到，2026 年 1 月 30 日之前创建的实例版本过旧，需要升级镜像才能用新功能。

对比之下，自己买一台 VPS 加上完整的 root 权限，体验完全是两个世界。

三、模型选择是一门玄学

OpenClaw 对模型的核心要求排序是：工具调用能力 > Token 单价 > 输出速度 > 上下文窗口 > 推理能力。社区经验表明，主模型至少要 14B 以上参数，8B 及以下容易出现"工具调用幻觉"——就是模型告诉你它调用了某个工具，实际上什么都没干。

国内模型的问题在于偏科严重。MiniMax-M2.5 编码能力不错，SWE-Bench 跑到 80.2%，但推理能力一般；GLM-5 推理强，幻觉率降了 56%，但价格是 MiniMax 的两倍多；Kimi K2.5 工具调用链路支持 200 步以上，但每百万 Token 输出价格高达 2.4 美元。

掘金上有个用户的经历很典型：OpenClaw 罢工后才发现 Claude 不可用，被迫切换国内模型，体验落差巨大。国外模型在工具调用、多步推理、指令遵循上全面领先，国内模型更像"专科医生"，某个维度强但综合能力差距明显。

还有个隐藏的坑：模型回退链。有人在回退列表里塞了五六个模型，结果前半段用 Opus 做深度推理，后半段切到便宜模型开始胡编乱造，整个任务"精神分裂"。

四、稳定性？它需要你像养宠物一样伺候

别以为配好了就能放着跑。一位实战用户的原话："24 小时不关机跑代理，会出现挂起、崩溃、无解释地沉默十几二十分钟——这不是你配置错了，这是这东西的常态。"

你需要自己写看门狗脚本，每 15 分钟 ping 一次健康检查接口。插件装多了直接把网关干碎，建议每次只装一个。处理长任务时新消息会直接消失，得手动开队列模式。TUI 界面永远显示"无输出"，可能只是因为你没给机器人发过消息。

我自己也踩过坑：定时任务不能按时执行，至今还在跟这个 bug 斗智斗勇。OpenClaw 不是一个"设好就忘"的工具，它更像一只需要定期喂食、遛弯、看病的电子宠物。

五、Agent 说"干完了"，你最好去验一下

这可能是最让人崩溃的一点。Agent 的自主程度完全取决于你指令的精确度，模糊指令约等于摸鱼。

实战案例："代理说'干完了'，结果代码根本没跑，仓库还是空的。"更离谱的是："子代理把整个项目删了，日志里什么都没有。"

DoNews 的分析也指出了一个结构性问题：任务启动后，OpenClaw 无法实时接收反馈并修正错误。你发现指令有误想让它停下来，它不会立刻停，必须先把上一条指令彻底跑完才会处理下一条命令。

虎嗅引用 Luca Rossi 的话说得最准确："设置好之后效果很魔幻。但设置的过程，是'期望'和'现实'之间的不断拉扯。"期望是完全自主的 AI 助手，现实是需要频繁干预的半自主工具。

六、安全和成本，两个被严重低估的问题

虎嗅有句话我印象很深："OpenClaw 最强的一面，恰恰也是最危险的一面——它能做的事太多了。"服务器暴露公网，三小时内必被暴力破解。Skills 生态是"插件供应链"安全最薄弱的环节：恶意技能、提示注入、权限误配，每一个都可能让你的服务器裸奔。

成本方面，Agent 场景的 Token 消耗是普通聊天的十倍以上。虎嗅的描述很形象："左右脑互搏——后台自己跟自己对话，直到把路径跑通。"即使用最便宜的 MiniMax-M2.5，每天 50 次任务也要 5.85 美元一个月；换成 Claude Opus，月均轻松突破 50 美元。

有人说混合模型能省钱——60% 到 70% 任务用便宜模型，30% 到 40% 复杂任务用高性能模型。但前面说了，混合模型又会导致"精神分裂"。这是一个两难。

七、所以，还要不要入坑？

说了这么多问题，我依然每天在用 OpenClaw。因为当你把这些坑都踩过之后，它确实能做到别的工具做不到的事情。

但你得先问自己三个问题：

你会用命令行吗？你愿意花至少一周时间调试吗？你能接受它偶尔"摸鱼"甚至"搞破坏"吗？

如果三个都是"是"——欢迎入坑，这条路虽然坎坷但风景独好。

如果有一个"否"——真心建议你先用 Claude Cowork 或者飞书 AI 试试水，等 OpenClaw 再成熟一些，或者等社区把路铺得更平一些，再来也不迟。

毕竟，OpenClaw 给你最大的自由，但也把最大的责任推给了你。

来源引用：极道实战避坑指南、虎嗅核心能力与潜在风险分析、DoNews 技术评价、CSDN 多模型部署实测、掘金模型对比、阿里云 FAQ、百度百科