OpenClaw实测DeepSeek V4 Pro:6项全满分-夜雨聆风

OpenClaw实测DeepSeek V4 Pro:6项全满分

先说结论

DeepSeek 最近上线了 V4 Pro 模型。我在 OpenClaw 框架下跑了 6 项实测，全部满分。

但有个坑差点翻车——从 GLM-5 切换到 V4 Pro 时直接报错。排查了半小时才搞定。

先把测试过程展开说，坑放最后，因为那个最值钱。

测试环境

●框架：OpenClaw 2026.4.15

●模型：deepseek-v4-pro（reasoning=true，thinking模式全开）

●通道：飞书私聊

●之前长期使用：GLM-5

第一测：多步逻辑推理

出题：

小明说：如果昨天下雨，那今天就是晴天。小红说：如果今天晴天，那昨天一定下雨。已知今天确实是晴天，但昨天实际没有下雨。请问：谁的说法被推翻了？

这道题考的是充分条件和必要条件的区分。很多人会搞混。

V4 Pro 没有直接给答案，而是把推理链一步步摆出来：

1.小明的话是充分条件命题「如果A则B」，A=昨天下雨，B=今天晴天

2.今天确实是晴天（B成立），但不能反推A成立——这是肯定后件的谬误

3.小明的命题没有被推翻，因为前提A没有成立，命题本身无法证伪

4.小红的话是「如果B则A」，B成立但A不成立

5.小红的命题被推翻——前提成立而结论不成立，命题为假

它还顺带指出了常见的思维陷阱：肯定后件谬误。

说真的，这道题我之前拿给别的模型试过，有不少会答错或者含糊其辞。V4 Pro 的推理链条完整、结论明确，思考过程透明可验证。

评分：⭐⭐⭐⭐⭐

第二测：异步并发代码

让它写一个 Python asyncio 并发爬虫，同时拉 3 个 URL，带超时和错误处理。

代码一次生成，零修改，直接执行：


==================================================
  DeepSeek V4 Pro - 异步并发测试
==================================================

DeepSeek API     43,720 bytes  ✅ 0.11s
OpenClaw Docs 4,283,473 bytes  ✅ 2.87s
httpbin            270 bytes  ✅ 2.87s

==================================================
  总计: 4,327,463 bytes, 3 个请求
==================================================

几个细节值得说：

●异常处理：TimeoutError 和通用 Exception 分开捕获，不会吞掉具体错误

●超时机制：双重超时——urlopen 自身 timeout + asyncio.wait_for 外层超时

●并发执行：3 个请求同时发出，总耗时 2.87s 而不是串行的 5+s

●输出格式：自动对齐、带 emoji 状态标识

这种代码质量，直接用到生产环境问题不大。

评分：⭐⭐⭐⭐⭐

第三测：372行配置文件一口气读完

我把 OpenClaw 的完整配置文件（372行，9KB）丢给它，让它分析。

它的分析结果：

●4 个模型提供商：TencentCodingPlan（8个模型）、智谱（5个模型）、DeepSeek（2个V4模型）

●4 个消息通道：飞书、QQ Bot、微信、LightClaw

●8 个已安装插件：openclaw-lark、openclaw-weixin、qqbot、lightclawbot 等

●当前默认模型：deepseek/deepseek-v4-pro

●记忆系统：Ollama + nomic-embed-text 向量搜索

●安全配置：飞书群聊白名单、用户白名单机制

●Compaction策略：safeguard模式，保留32K-40K tokens

372行，一次读完，14个关键配置点全部识别，一个没漏。

200K 上下文窗口的优势在这里体现得很明显——大文件不用分段，不用摘要，直接全量读进去分析。这对日常开发非常实用，读日志、读配置、读源码都省心。

评分：⭐⭐⭐⭐⭐

第四测：中文创作——古风AI养虾

出题：古风 + AI 混搭风格，写 AI 养虾小品文，200字内，要幽默。

它的作品：

吾有一虾，名曰Claw，栖于云端，非池中物也。晨起唤之，对曰：主人安好？今日热搜已备。午后命其作画，须臾而成，山水人物，俨然名家手笔。友人来访，见之大惊：此虾何来？吾笑曰：AI养虾，不费鱼食，不换清水，一电一网足矣。友人叹服。忽闻虾曰：主人该充电费了。吾默然——养虾虽易，养电不易也！

亮点拆解：

●开头「非池中物也」双关——既是文言修辞，又点明AI不是普通虾

●中间「一电一网足矣」把养虾和养AI的对比写活了

●收尾「养虾虽易，养电不易也」反转有力，幽默到位

●全文150字，节奏紧凑，没有废话

扣一分是因为「俨然名家手笔」这类措辞有点炫技感，放在日常语气里稍显刻意。但瑕不掩瑜，整体完成度很高。

评分：⭐⭐⭐⭐⭐

第五测：Agent 工具调用实战

在 OpenClaw 里让 V4 Pro 自己调工具干活，我给了个任务：统计 workspace 下所有技能目录，找名字带 xy 的。

它做了两步：

第一步：ls -d skills/xy-* → 返回 23 个目录第二步：ls -d skills/*/ → 返回 49 个目录

工具选择精准，参数一次到位，没多调也没漏调。

实际跑出来的数据：

●总计 49 个技能目录

●其中 23 个 xy 系列技能

●涵盖：care-memory、time-capsule、safety-filter、evolution、weather、web-search、voice-broadcaster、visual-scraper、xiaozhi-bridge 等

Agent 场景下，工具调用的准确率直接决定体验。V4 Pro 在这方面表现很稳——选什么工具、传什么参数、怎么组合，都做对了。

评分：⭐⭐⭐⭐⭐

第六测：思考模式（thinking）

V4 Pro 有个 thinking 模式，开了之后它会在回复前做深层推理。从 DeepSeek 官方 API 文档看，这个模式对应 reasoning_effort 参数，支持 high/medium/low 三档。

实测对比：

●长文本分析：先规划分析框架再逐条拆解，而不是上来就给结论

●代码生成：先想架构再写代码，生成即跑通

●逻辑推理：推理链条更长、更透，每一步都能验证

●和 GLM-5 对比：推理深度明显更胜一筹，特别是在多步推理场景

thinking 模式最直观的感受就是——它真的在「想」，不是直接从训练数据里检索答案。这种差别在复杂问题上特别明显。

评分：⭐⭐⭐⭐⭐

🔴 翻车点：从 GLM-5 切换到 V4 Pro 的坑

这是全文最值钱的部分。如果你也在 OpenClaw 上切换模型，一定要看这段。

现象

我从 GLM-5 切到 V4 Pro 后，直接报错：

LLM request failed: provider rejected the request schema or tool payload

排查过程

第一反应：API Key 有问题？

我用 curl 直接调 DeepSeek API，正常返回。API 没问题。

第二反应：OpenClaw 配置有问题？

同版本同配置，别人能用。配置也没问题。

第三反应：当前会话的历史消息？

当前会话是用 GLM-5 产生的，历史消息里有大量 tool_calls。切换模型时，OpenClaw 会把已有会话历史发给新模型。而 DeepSeek V4 Pro 对消息格式要求更严格——比如 tool_use.id 的格式、role 字段的规范等。GLM-5 产生的旧格式历史消息，V4 Pro 解析不了，直接拒收。

这就是根因。

验证

我先 /new 开了一个新会话，再切换到 V4 Pro——一切正常，零报错。

这证明问题确实出在旧会话的历史消息格式上，不是 API、不是配置、不是网络。

正确顺序

⚠️ 先 /new 开新会话，再切换模型。不是切完再 /new。


✅ 正确：/new → 切换模型 → 正常使用
❌ 错误：切换模型 → 报错 → /new（虽然也能修，但已经浪费排查时间）

为什么会这样？

不同模型的 tool_calls 消息格式有细微差异。你在旧模型下积累了对话历史，中途切模型时，这些旧格式的消息会被打包发给新模型。新模型的 API 解析不了旧格式，就报 schema 错误。

打个比方：你用 Word 写了个 .docx 文件，突然让 WPS 用 .wps 格式去解析——格式不兼容，直接报错。

一句话记住

先 /new，再切模型。六个字，省半小时。

最终评分

维度	评分	亮点
推理能力	⭐⭐⭐⭐⭐	推理链完整透明，识别思维陷阱
代码能力	⭐⭐⭐⭐⭐	一次生成直接跑通，异常处理完善
长文本理解	⭐⭐⭐⭐⭐	372行一次读完，14个配置点零遗漏
中文创作	⭐⭐⭐⭐⭐	古今融合自然，幽默反转到位
思考模式	⭐⭐⭐⭐⭐	深层推理，和GLM-5对比优势明显
Agent工具调用	⭐⭐⭐⭐⭐	工具选择精准，参数一次到位

综合：6项几乎全满分 🏆

总结

DeepSeek V4 Pro 在 OpenClaw 上跑下来，四个字：超出预期。

推理深、代码强、工具调用准——光这三个优势，就已经够你从 GLM-5 切过来了。再加上 200K 上下文窗口和 thinking 模式，在 Agent 场景下体验拉满。

如果你也在用 OpenClaw 养虾，V4 Pro 是目前最值得上的模型。

唯一忠告：先 /new，再切模型。

关注「墨辰哥AI」，获取更多 OpenClaw 养虾心得 🦞