想知道AI中转站有没有偷换模型?用这个工具!

AI 工具 · 免费开放

你花顶配的钱，买到的可能是低配的模型

我做了个工具来验证这件事

这是一个免费工具，用来测试你接入的 AI 模型到不到位、有没有被调包。今天正式上线，顺利完成国内备案，分享给有需要的人。

你选了一个模型，付了钱，开始用。但你调用的，真的是你以为的那个模型吗？

服务商给你提供的接口，标注的是 GPT-4o 或者 Claude Opus，但实际跑在背后的，可能是某个更便宜的模型，甚至是经过"改造"的版本。这种情况在第三方 API 渠道里并不罕见——他们的成本压力摆在那里，而用户几乎没有辨别能力。

大多数人只能靠感觉。觉得回答质量变差了，猜测是不是被换了模型，但没有办法证实。这个问题困扰了我很久，直到我决定自己做个工具来解决它。

工具介绍

这个工具能做什么

简单说：它会对你接入的模型跑一套测试，告诉你这个模型是真是假、稳不稳、有没有被动过手脚。

整个工具分三个区域：

左侧填写你要测试的模型信息（API 地址和 Key）

中间实时显示测试进行过程

右侧展示测试结果和分析报告

操作步骤

三步完成测试

填入你的 API 信息

把你的 API 地址和 Key 粘贴进去。如果觉得麻烦，可以直接把所有信息一次性丢进识别框，点「一键识别」，工具会自动帮你解析填好。

填入你想测试的模型名称

直接复制你的服务商提供的模型名，粘贴进来。

点击「一键跑测」，等待 1-2 分钟

剩下的交给工具。它会自动跑完 18 道探针测试，从五个维度评估这个模型：真实性、稳定性、是否被篡改、接口一致性、综合可用性。

测试结果

你会得到什么

①

综合评分一个直观的数字，反映模型的整体可靠程度

②

风险评估低 / 中 / 高三个等级，快速判断是否存在问题

③

接口一致性报告你请求的模型 vs 实际响应的模型，两者是否一致

④

分析报告与决策建议具体说明哪些维度有问题，以及怎么处理

真实测试

结果比我预想的更有意思

工具上线前，我用它测试了几个主流模型，有几个发现值得分享。

千问 3.6 Plus

综合评分

低风险

请求与响应模型完全一致。主要扣分点是长文本输出略有偏差——要求 1500 字，实际输出 1450 字，差 50 个字。整体真实性和稳定性都很高。

智谱 GLM-5.0

综合评分

中风险

有意思的地方在于接口一致性——我请求的是 5.0，但实际响应的是 5.1。如果是升级可以接受；但如果方向反过来，你请求高版本，给你跑低版本，那就需要认真对待了。

Claude Opus 4.7

💡Opus 4.7 在代码题和推理题上出现了错误。我把出错的题目复制到 Claude 官方桌面端测试，确认是模型答错了，不是题目的问题。这个对比说明了一件事：不要迷信某一个模型。根据你自己的任务类型去选合适的工具，是更务实的做法。

附加功能

几个值得一提的功能

🔁 补测功能

某次跑测结果不理想，可以用补测跑一套更核心的题目，两次对比判断问题是偶发还是稳定存在。

⚖️ 官方对比

直接拿服务商的模型和原厂模型做 PK，分数接近说明没有被调包，分数差距很大——你心里会有答案。

📋 历史记录

保存每次测试记录，方便对同一个模型多次测试，观察分数稳定性。

使用说明

几点补充

🆓免费使用，无需注册，已完成国内备案

🔄测试题目定期更新，防止被"针对性训练"，确保有效性

🛠分析报告算法还在迭代中，预计近期会有一次明显的优化升级

自己花时间接 API、接模型，是因为想要更高的自由度和性价比。但如果连模型是不是真的都无法确认，这种自由度就打了折扣。希望这个工具能帮你把这个漏洞补上。

免费使用，欢迎转发给有需要的朋友

www.dabowan.com

如果你在使用中遇到异常数据、发现 bug，或者有任何建议，可以通过页面内的反馈入口直接提交给我 💬

雷好学长祝大家学习进步 👋