OpenClaw实测DeepSeek V4 Pro:6项全满分
先说结论
DeepSeek 最近上线了 V4 Pro 模型。我在 OpenClaw 框架下跑了 6 项实测,全部满分。
但有个坑差点翻车——从 GLM-5 切换到 V4 Pro 时直接报错。排查了半小时才搞定。
先把测试过程展开说,坑放最后,因为那个最值钱。
测试环境
●框架:OpenClaw 2026.4.15
●模型:deepseek-v4-pro(reasoning=true,thinking模式全开)
●通道:飞书私聊
●之前长期使用:GLM-5
第一测:多步逻辑推理
出题:
小明说:如果昨天下雨,那今天就是晴天。 小红说:如果今天晴天,那昨天一定下雨。 已知今天确实是晴天,但昨天实际没有下雨。 请问:谁的说法被推翻了?
这道题考的是充分条件和必要条件的区分。很多人会搞混。
V4 Pro 没有直接给答案,而是把推理链一步步摆出来:
1.小明的话是充分条件命题「如果A则B」,A=昨天下雨,B=今天晴天
2.今天确实是晴天(B成立),但不能反推A成立——这是肯定后件的谬误
3.小明的命题没有被推翻,因为前提A没有成立,命题本身无法证伪
4.小红的话是「如果B则A」,B成立但A不成立
5.小红的命题被推翻——前提成立而结论不成立,命题为假
它还顺带指出了常见的思维陷阱:肯定后件谬误。
说真的,这道题我之前拿给别的模型试过,有不少会答错或者含糊其辞。V4 Pro 的推理链条完整、结论明确,思考过程透明可验证。
评分:⭐⭐⭐⭐⭐
第二测:异步并发代码
让它写一个 Python asyncio 并发爬虫,同时拉 3 个 URL,带超时和错误处理。
代码一次生成,零修改,直接执行:
==================================================
DeepSeek V4 Pro - 异步并发测试
==================================================
DeepSeek API 43,720 bytes ✅ 0.11s
OpenClaw Docs 4,283,473 bytes ✅ 2.87s
httpbin 270 bytes ✅ 2.87s
==================================================
总计: 4,327,463 bytes, 3 个请求
==================================================
几个细节值得说:
●异常处理:TimeoutError 和通用 Exception 分开捕获,不会吞掉具体错误
●超时机制:双重超时——urlopen 自身 timeout + asyncio.wait_for 外层超时
●并发执行:3 个请求同时发出,总耗时 2.87s 而不是串行的 5+s
●输出格式:自动对齐、带 emoji 状态标识
这种代码质量,直接用到生产环境问题不大。
评分:⭐⭐⭐⭐⭐
第三测:372行配置文件一口气读完
我把 OpenClaw 的完整配置文件(372行,9KB)丢给它,让它分析。
它的分析结果:
●4 个模型提供商:TencentCodingPlan(8个模型)、智谱(5个模型)、DeepSeek(2个V4模型)
●4 个消息通道:飞书、QQ Bot、微信、LightClaw
●8 个已安装插件:openclaw-lark、openclaw-weixin、qqbot、lightclawbot 等
●当前默认模型:deepseek/deepseek-v4-pro
●记忆系统:Ollama + nomic-embed-text 向量搜索
●安全配置:飞书群聊白名单、用户白名单机制
●Compaction策略:safeguard模式,保留32K-40K tokens
372行,一次读完,14个关键配置点全部识别,一个没漏。
200K 上下文窗口的优势在这里体现得很明显——大文件不用分段,不用摘要,直接全量读进去分析。这对日常开发非常实用,读日志、读配置、读源码都省心。
评分:⭐⭐⭐⭐⭐
第四测:中文创作——古风AI养虾
出题:古风 + AI 混搭风格,写 AI 养虾小品文,200字内,要幽默。
它的作品:
吾有一虾,名曰Claw,栖于云端,非池中物也。晨起唤之,对曰:主人安好?今日热搜已备。午后命其作画,须臾而成,山水人物,俨然名家手笔。友人来访,见之大惊:此虾何来?吾笑曰:AI养虾,不费鱼食,不换清水,一电一网足矣。友人叹服。忽闻虾曰:主人该充电费了。吾默然——养虾虽易,养电不易也!
亮点拆解:
●开头「非池中物也」双关——既是文言修辞,又点明AI不是普通虾
●中间「一电一网足矣」把养虾和养AI的对比写活了
●收尾「养虾虽易,养电不易也」反转有力,幽默到位
●全文150字,节奏紧凑,没有废话
扣一分是因为「俨然名家手笔」这类措辞有点炫技感,放在日常语气里稍显刻意。但瑕不掩瑜,整体完成度很高。
评分:⭐⭐⭐⭐⭐
第五测:Agent 工具调用实战
在 OpenClaw 里让 V4 Pro 自己调工具干活,我给了个任务:统计 workspace 下所有技能目录,找名字带 xy 的。
它做了两步:
第一步:ls -d skills/xy-* → 返回 23 个目录 第二步:ls -d skills/*/ → 返回 49 个目录
工具选择精准,参数一次到位,没多调也没漏调。
实际跑出来的数据:
●总计 49 个技能目录
●其中 23 个 xy 系列技能
●涵盖:care-memory、time-capsule、safety-filter、evolution、weather、web-search、voice-broadcaster、visual-scraper、xiaozhi-bridge 等
Agent 场景下,工具调用的准确率直接决定体验。V4 Pro 在这方面表现很稳——选什么工具、传什么参数、怎么组合,都做对了。
评分:⭐⭐⭐⭐⭐
第六测:思考模式(thinking)
V4 Pro 有个 thinking 模式,开了之后它会在回复前做深层推理。从 DeepSeek 官方 API 文档看,这个模式对应 reasoning_effort 参数,支持 high/medium/low 三档。
实测对比:
●长文本分析:先规划分析框架再逐条拆解,而不是上来就给结论
●代码生成:先想架构再写代码,生成即跑通
●逻辑推理:推理链条更长、更透,每一步都能验证
●和 GLM-5 对比:推理深度明显更胜一筹,特别是在多步推理场景
thinking 模式最直观的感受就是——它真的在「想」,不是直接从训练数据里检索答案。这种差别在复杂问题上特别明显。
评分:⭐⭐⭐⭐⭐
🔴 翻车点:从 GLM-5 切换到 V4 Pro 的坑
这是全文最值钱的部分。如果你也在 OpenClaw 上切换模型,一定要看这段。
现象
我从 GLM-5 切到 V4 Pro 后,直接报错:
LLM request failed: provider rejected the request schema or tool payload
排查过程
第一反应:API Key 有问题?
我用 curl 直接调 DeepSeek API,正常返回。API 没问题。
第二反应:OpenClaw 配置有问题?
同版本同配置,别人能用。配置也没问题。
第三反应:当前会话的历史消息?
当前会话是用 GLM-5 产生的,历史消息里有大量 tool_calls。切换模型时,OpenClaw 会把已有会话历史发给新模型。而 DeepSeek V4 Pro 对消息格式要求更严格——比如 tool_use.id 的格式、role 字段的规范等。GLM-5 产生的旧格式历史消息,V4 Pro 解析不了,直接拒收。
这就是根因。
验证
我先 /new 开了一个新会话,再切换到 V4 Pro——一切正常,零报错。
这证明问题确实出在旧会话的历史消息格式上,不是 API、不是配置、不是网络。
正确顺序
⚠️ 先 /new 开新会话,再切换模型。不是切完再 /new。
✅ 正确:/new → 切换模型 → 正常使用
❌ 错误:切换模型 → 报错 → /new(虽然也能修,但已经浪费排查时间)
为什么会这样?
不同模型的 tool_calls 消息格式有细微差异。你在旧模型下积累了对话历史,中途切模型时,这些旧格式的消息会被打包发给新模型。新模型的 API 解析不了旧格式,就报 schema 错误。
打个比方:你用 Word 写了个 .docx 文件,突然让 WPS 用 .wps 格式去解析——格式不兼容,直接报错。
一句话记住
先 /new,再切模型。 六个字,省半小时。
最终评分
|
维度 |
评分 |
亮点 |
|
推理能力 |
⭐⭐⭐⭐⭐ |
推理链完整透明,识别思维陷阱 |
|
代码能力 |
⭐⭐⭐⭐⭐ |
一次生成直接跑通,异常处理完善 |
|
长文本理解 |
⭐⭐⭐⭐⭐ |
372行一次读完,14个配置点零遗漏 |
|
中文创作 |
⭐⭐⭐⭐⭐ |
古今融合自然,幽默反转到位 |
|
思考模式 |
⭐⭐⭐⭐⭐ |
深层推理,和GLM-5对比优势明显 |
|
Agent工具调用 |
⭐⭐⭐⭐⭐ |
工具选择精准,参数一次到位 |
综合:6项几乎全满分 🏆
总结
DeepSeek V4 Pro 在 OpenClaw 上跑下来,四个字:超出预期。
推理深、代码强、工具调用准——光这三个优势,就已经够你从 GLM-5 切过来了。再加上 200K 上下文窗口和 thinking 模式,在 Agent 场景下体验拉满。
如果你也在用 OpenClaw 养虾,V4 Pro 是目前最值得上的模型。
唯一忠告:先 /new,再切模型。
关注「墨辰哥AI」,获取更多 OpenClaw 养虾心得 🦞
夜雨聆风