OpenClaw 龙虾日常维护修复实战指南

效率研究所

"让工具回归工具，让想法落地"

2026年3月31日

实战 · 运维

OpenClaw 日常运维修复实战指南

核心结论

OpenClaw 跑起来很稳，但"稳"不代表不出问题，即使是云服务器也不例外。本文覆盖我在腾讯云轻量应用服务器上实际遇到并解决过的 5 类高频问题：磁盘、内存、服务、权限、网络。

正文 · DETAILS

一、磁盘满了？先搞清楚是谁在吃空间

问题现象

服务器磁盘使用率 70%，每周涨 4%，预计 20 天后爆满。

排查命令

# 1. 定位最大的目录 du -sh /root/* | sort -hr | head -10 # 2. 看 OpenClaw 的日志目录 du -sh /root/.openclaw/workspace/logs/ # 3. 看 npm/pnpm 全局包（容易被忽略） du -sh ~/.local/share/pnpm/

修复方案

日志文件是头号犯。每周跑一次：

# 清理 7 天前的日志（保留最近一周） find /root/.openclaw/workspace/logs/ -name "*.log" -mtime +7 -delete # 清理 npm 缓存 pnpm store prune

效果每周清理一次，磁盘增长可以从 4%/3天降到几乎零增长。

二、服务假死？Gateway 重启三板斧

问题现象

飞书消息发出去没有响应，AI 不回复，但服务器还活着。

排查命令

# 看 Gateway 进程还在不在 ps aux | grep openclaw # 看 Gateway 日志有没有 ERROR tail -50 /root/.openclaw/workspace/logs/gateway.log

修复方案

# 停止 openclaw gateway stop # 等 3 秒 sleep 3 # 启动 openclaw gateway start # 确认状态 openclaw gateway status

预防措施配置每日自动重启的 cron 任务，凌晨 4 点执行，对用户零感知：0 4 * * * openclaw gateway restart >> /dev/null 2>&1

三、版本升级后起不来？多半是配置没对齐

问题现象

升级 OpenClaw 后 Gateway 起不来，报错 Module not found 或配置项报错。

修复方案

不要直接升级，先看 changelog。 跨版本升级（如 2026.3.11 → 2026.3.24）有时需要迁移配置。

# 备份当前配置 cp -r ~/.openclaw ~/.openclaw.backup.$(date +%Y%m%d) # 升级 pnpm 包 pnpm update # 重启 openclaw gateway restart

教训升级前备份配置，升级后第一时间测试核心功能（发消息、查记忆、执行定时任务）。

四、飞书收不到消息？检查这两个配置

问题现象

AI 能正常回复日志，但飞书那边消息发不出去/收不到。

排查顺序

1. 检查 AppID 和 AppSecret 是否过期 → 飞书开放平台 → 基本配置 → 查看

2. 检查 Webhook 事件订阅是否生效 → 飞书开放平台 → 事件与回调 → 事件配置

3. 检查服务器的 inbound 端口是否通 → 飞书需要能回调到你的服务器

快速验证

在飞书群 @机器人发一条消息，看服务器日志有没有进来：

tail -f /root/.openclaw/workspace/logs/gateway.log

五、内存悄悄涨？定时检查进程

问题现象

服务器可用内存越来越少，但 top 看进程 CPU 并不高。

排查命令

# 看内存前三的进程 ps aux --sort=-%mem | head -6 # 看 OpenClaw 的 Node 进程内存 ps aux | grep "node.*openclaw" | grep -v grep

修复方案

OpenClaw 本身内存管理做得不错，问题通常出在：

• 长期不重启 → Gateway 进程累积了缓存（参考第二条的定时重启）

• 并发消息过多 → 消息处理队列积压，内存上涨

• 第三方 MCP 服务泄漏 → 检查你接的外部工具

工具箱：一键自查脚本

把以下内容保存到 /root/check_openclaw.sh，每天跑一次心里有数：

#!/bin/bash echo "=== OpenClaw 健康检查 $(date) ===" echo "" echo "📦 版本：$(openclaw --version 2>/dev/null || echo '未知')" echo "💾 磁盘：$(df -h / | tail -1 | awk '{print $5}')" echo "🧠 内存：$(free -h | grep Mem | awk '{print $3 "/" $2}')" echo "" echo "🔍 Gateway 进程：$(ps aux | grep -c '[o]penclaw gateway')" echo "📝 最新日志 ERROR：$(tail -100 ~/.openclaw/workspace/logs/gateway.log 2>/dev/null | grep -c ERROR || echo 0)" echo "" echo "=== 检查完成 ==="

加执行权限：

chmod +x /root/check_openclaw.sh

效果每天早上花 10 秒看一下输出，99% 的问题可以提前发现。

总结

OpenClaw 本身的稳定性不错，日常运维的核心就是三件事：

1. 磁盘管理 — 定期清理日志，配置监控告警

2. 服务保活 — 定时重启 Gateway，防止假死

3. 版本管控 — 升级前看 changelog，做好配置备份

做好这三点，你的 AI 助手可以真正做到"零维护"。