LLM request timed outrate_limitcooldown

LLM request timed out请求已经发出,但上游返回太慢
网络中间层卡住了
Provider 在排队
模型在处理超长上下文,迟迟没有首 token
实际触发了限流,但表现得像请求一直没完成


timeout429用户请求本身非常大
输入里附带过多上下文
同时触发多个并发任务
某些工具调用链太长,导致一次请求实际包含多轮推理
rate_limit当前会话上下文过长
同一时间并发请求太多
某个 provider 已经处于不稳定状态
重试策略叠加导致整体耗时变长
cooldown网络延迟抖动
TLS 建连慢
DNS 解析慢
代理转发阻塞
网关空闲连接被回收
长连接/流式响应被中间层截断
服务端排队
高峰期首 token 很慢
账号级限流
某模型临时退化
某区域出口到 provider 网络不稳定
上下文过长
输出要求过长
推理复杂度高
工具调用 / structured output 增加耗时
多模态输入(图片、文件)处理时间更久


timeout请求发出去了
但在规定时间内没拿到结果
不一定是被拒绝,更像“等太久了”
LLM request timed out请求卡很久后失败
某些时候重试一次又好了
上游明确告诉你:请求太多了
是“被限流”,不是“慢”
RPM / TPM 超限
并发数太高
账户级调用配额到顶
某个模型单独有消息窗口限制
OpenClaw 发现某个 provider/profile 连续失败或限流
暂时把它标记为不可用
这是一种“保护性熔断”
不是你这次请求单独失败,而是系统判断这条上游链路短时间内都不适合继续打了。
马上报错、提示 429 → 限流
短时间内 provider 全挂、提示 cooldown → 熔断/冷却
挂很久才失败、报 timed out → 超时


LLM request timed out短请求正常,长请求容易超时
同一个模型,简单问答秒回,复杂任务卡住
压缩上下文
缩短输入
不要一次喂太多文档
把大任务拆成多轮
“请写一篇超长文章”
“输出详细 JSON”
“分析 100 条记录并逐条总结”
“一步完成调研 + 方案 + 代码 + 测试”
首 token 非常慢
即使没报 429,也容易卡死
把任务拆阶段
限制输出长度
先要摘要,再要展开版
把“分析”和“生成”分成两次请求
偶发性 timeout
高峰期更明显
某些请求能成,某些请求会卡死
降低并发
避免多个重任务同时跑
减少一次消息触发的多轮 LLM 调用
排队
首 token 延迟高
某模型局部退化
同一时间多次请求都慢
换模型/换 provider 后恢复
切换到备用模型
等几分钟再试
选择响应更稳定的模型做生产任务
有时能通,有时完全卡住
不同 provider 表现不同
同一 provider 在不同时段差异很大
检查出口网络
检查 DNS / TLS / 代理
检查网关是否对长连接/流式响应不友好
避免中间层过多
高并发时更常见
日志里能看到 429 / rate_ limit / provider unavailable
伴随 cooldown
先确认是否有限流
做退避,不要硬重试
切 provider / 切模型 / 降并发


上下文太长
输出太重
某次调用链太复杂
provider 整体异常
网络链路异常
provider cooldown
网关/代理层故障
/status当前模型
是否有模型 override
是否启用了高推理/高 verbose
是否近期出现 provider 异常
退避等待
不要疯狂重试
切换模型或 provider
降低并发和输入大小
openclaw logs --followopenclaw logs --follow请求发出后多久无响应
是否有 429 / 5xx
是否出现 provider unavailable
是否某个 provider 反复失败
是否超时前有重试
测试 A:极短请求
你好,回复一个“1”。测试 B:复杂请求
请基于下面的长文档做完整总结,并输出详细结构化 JSON。请求复杂度太高
上下文过长
输出太重
原模型高峰期卡顿
原 provider 不稳定
原账户对该模型有限流/排队
“系统性故障”
“模型级故障”
“provider 级故障”


长对话
大文档
超长提示词
工具结果塞太多
清理旧上下文
拆小任务
先摘要再展开
大文件分段处理
多用户同时请求
同时跑多个子代理
一个请求里触发多个 LLM 回合
避免同时提交多个重任务
序列化关键任务
减少自动重试叠加
某个模型明显慢
某 provider 近期波动
cooldown / 429 频发
把高端模型留给复杂任务
日常任务优先用更稳、更便宜、更快的模型
给生产环境准备备用 provider
等 30~120 秒再试
只做一次有节制的重试
必要时切换模型
任务可以改成稍后自动重试
不同 provider 表现差异大
某时段集中超时
本地出口网络不稳定
DNS 解析
TLS 建连
代理稳定性
网关是否支持长连接 / 流式输出
是否存在中间层超时过短




LLM request timed out控制上下文长度
别把所有历史都无限堆进一次请求。重任务拆分
把“读资料、分析、生成、输出”拆成多步,而不是一口气做完。限制并发
多个复杂任务尽量排队,不要一起打爆 provider。准备备用模型
不要把所有任务都押在单一 provider 或单一高阶模型上。识别 cooldown 与 timeout
如果已经看到 cooldown / rate_ limit,就不要继续当普通 timeout 处理。建立日志观察习惯


LLM request timed out先确认范围:是个别任务,还是全局故障? 看会话状态 看运行日志 确认是否有 429 / cooldown
有:退避、切模型、降并发
没有:继续看网络和请求负载
做短请求对照测试
短请求成功 → 说明系统没全挂
长请求失败 → 优先优化输入/输出
切换模型验证
换模型恢复 → 原模型或原 provider 问题
全都失败 → 看网络 / 网关 / 本地部署
LLM request timed out请求太大
输出太重
并发太高
provider 太慢
网络链路不稳
rate limit / cooldown 伪装成 timeout

LLM request timed out两个多月龙虾实战经验,每天消耗上亿token,关注我,获取更多AI技巧
夜雨聆风