效率研究所
"让工具回归工具,让想法落地"
2026年3月31日
实战 · 运维
OpenClaw 日常运维修复实战指南
核心结论
OpenClaw 跑起来很稳,但"稳"不代表不出问题,即使是云服务器也不例外。本文覆盖我在腾讯云轻量应用服务器上实际遇到并解决过的 5 类高频问题:磁盘、内存、服务、权限、网络。
正文 · DETAILS
一、磁盘满了?先搞清楚是谁在吃空间
问题现象
服务器磁盘使用率 70%,每周涨 4%,预计 20 天后爆满。
排查命令
# 1. 定位最大的目录 du -sh /root/* | sort -hr | head -10 # 2. 看 OpenClaw 的日志目录 du -sh /root/.openclaw/workspace/logs/ # 3. 看 npm/pnpm 全局包(容易被忽略) du -sh ~/.local/share/pnpm/
修复方案
日志文件是头号犯。每周跑一次:
# 清理 7 天前的日志(保留最近一周) find /root/.openclaw/workspace/logs/ -name "*.log" -mtime +7 -delete # 清理 npm 缓存 pnpm store prune
效果每周清理一次,磁盘增长可以从 4%/3天 降到几乎零增长。
二、服务假死?Gateway 重启三板斧
问题现象
飞书消息发出去没有响应,AI 不回复,但服务器还活着。
排查命令
# 看 Gateway 进程还在不在 ps aux | grep openclaw # 看 Gateway 日志有没有 ERROR tail -50 /root/.openclaw/workspace/logs/gateway.log
修复方案
# 停止 openclaw gateway stop # 等 3 秒 sleep 3 # 启动 openclaw gateway start # 确认状态 openclaw gateway status
预防措施配置每日自动重启的 cron 任务,凌晨 4 点执行,对用户零感知:0 4 * * * openclaw gateway restart >> /dev/null 2>&1
三、版本升级后起不来?多半是配置没对齐
问题现象
升级 OpenClaw 后 Gateway 起不来,报错 Module not found 或配置项报错。
修复方案
不要直接升级,先看 changelog。 跨版本升级(如 2026.3.11 → 2026.3.24)有时需要迁移配置。
# 备份当前配置 cp -r ~/.openclaw ~/.openclaw.backup.$(date +%Y%m%d) # 升级 pnpm 包 pnpm update # 重启 openclaw gateway restart
教训升级前备份配置,升级后第一时间测试核心功能(发消息、查记忆、执行定时任务)。
四、飞书收不到消息?检查这两个配置
问题现象
AI 能正常回复日志,但飞书那边消息发不出去/收不到。
排查顺序
1. 检查 AppID 和 AppSecret 是否过期 → 飞书开放平台 → 基本配置 → 查看
2. 检查 Webhook 事件订阅是否生效 → 飞书开放平台 → 事件与回调 → 事件配置
3. 检查服务器的 inbound 端口是否通 → 飞书需要能回调到你的服务器
快速验证
在飞书群 @机器人 发一条消息,看服务器日志有没有进来:
tail -f /root/.openclaw/workspace/logs/gateway.log
五、内存悄悄涨?定时检查进程
问题现象
服务器可用内存越来越少,但 top 看进程 CPU 并不高。
排查命令
# 看内存前三的进程 ps aux --sort=-%mem | head -6 # 看 OpenClaw 的 Node 进程内存 ps aux | grep "node.*openclaw" | grep -v grep
修复方案
OpenClaw 本身内存管理做得不错,问题通常出在:
• 长期不重启 → Gateway 进程累积了缓存(参考第二条的定时重启)
• 并发消息过多 → 消息处理队列积压,内存上涨
• 第三方 MCP 服务泄漏 → 检查你接的外部工具
工具箱:一键自查脚本
把以下内容保存到 /root/check_openclaw.sh,每天跑一次心里有数:
#!/bin/bash echo "=== OpenClaw 健康检查 $(date) ===" echo "" echo "📦 版本:$(openclaw --version 2>/dev/null || echo '未知')" echo "💾 磁盘:$(df -h / | tail -1 | awk '{print $5}')" echo "🧠 内存:$(free -h | grep Mem | awk '{print $3 "/" $2}')" echo "" echo "🔍 Gateway 进程:$(ps aux | grep -c '[o]penclaw gateway')" echo "📝 最新日志 ERROR:$(tail -100 ~/.openclaw/workspace/logs/gateway.log 2>/dev/null | grep -c ERROR || echo 0)" echo "" echo "=== 检查完成 ==="
加执行权限:
chmod +x /root/check_openclaw.sh
效果每天早上花 10 秒看一下输出,99% 的问题可以提前发现。
总结
OpenClaw 本身的稳定性不错,日常运维的核心就是三件事:
1. 磁盘管理 — 定期清理日志,配置监控告警
2. 服务保活 — 定时重启 Gateway,防止假死
3. 版本管控 — 升级前看 changelog,做好配置备份
做好这三点,你的 AI 助手可以真正做到"零维护"。
夜雨聆风