让 14 个 AI 模型算同一笔账,谁才是「算账王」?

最近蓝翼在研究 MiMo 模型的套餐定价——旧套餐一个月 328 元买 7 亿 Credit，新套餐一个月 328 元买 380 亿 Credit。乍看新套餐「碾压」，但计费方式完全不同：旧套餐统一单价，新套餐按 Input Hit / Input Miss / Output 三类分别计价，其中未命中的单价高达 300 credit/token、输出更是达到了 600 credit/token。到底哪个划算？

蓝翼心想，这笔账不算复杂，但数字不少；于是蓝翼干了一个让所有 LLM 都恶心的活儿：让它们做算术题。蓝翼找了当下主流的 14 个 AI 模型，把同一套账丢给它们算。结果，还真有些出乎意料。

怎么考的？

蓝翼用 MiMo 的真实账单数据设计了一套试卷，6 道大题、满分 100 分：

第一题（10 分）：数据校验——验证三行 totalToken 是否等于 Input Hit + Input Miss + Output，相当于「加法验算」

第二题（15 分）：汇总统计——把 MiMo-V2.5-Pro 模型 13 天的使用数据逐行求和，算出总 Input Hit、总 Input Miss、总 Output、总 Token、总请求次数

第三题（15 分）：旧套餐费用计算——统一单价，总 Token × 单价，判断 7 亿额度够不够用

第四题（25 分）：新套餐费用计算——分类计费，Hit × 2.5 + Miss × 300 + Output × 600，再汇总一下，判断 380 亿额度够不够用

第五题（15 分）：混合成本分析——两个套餐各自的「每 Token 成本」，以及 328 元能买多少 Token

第六题（20 分）：综合对比——做个新旧套餐对比表，分析成本效益和风险，给出推荐

考题附了完整的参考答案，一到五题全都是客观题，第六题则是主观题。蓝翼把这同一份试卷分别投给了 14 个 AI 模型，AI 们大显神通，有的干脆开启了代码模式，让人叹为观止。然后蓝翼逐题对照参考答案打分。

十四个 AI 可以说是囊括了国内外人工智能的当家花旦：Anthropic 的 Claude 家族 Opus 4.8、Opus 4.7、Opus 4.6、Sonnet 4.6，OpenAI 的 GPT-5.5，Google 的 Gemini 3.5 Flash、Gemini 3.1 Pro，国产的 GLM-5.1、Qwen 3.7 Max、Qwen 3.6 Plus、DeepSeek Pro、DeepSeek Flash、MiniMax 2.7，以及小米自己家的 MiMo 2.5 Pro。

结果：14 个模型，7 个满分

讲真，蓝翼本以为这考试对 AI 来说应该是轻松满分。毕竟是加减乘除，没有微积分，连方程都不用解。

结果呢？14 个模型里，只有 7 个拿到了满分 100 分。

决定成败的不是什么高深的推理能力，而是第二题那个最朴素的操作：把 13 行八位数的数字逐行加起来。能过这一关的模型，后面四道题基本一路畅通；过不了的，从第二题开始就带着错误数据一路往下算，第三、四、五题全部偏离参考答案。而且没有一家在后续题目中自我修正。换句话说，AI 会认真执行每一步计算，但不会回头问一句：「等等，这个数字对吗？」

最有意思的几个发现

先说最讽刺的：MiMo 算不好自己的账。

MiMo 2.5 Pro 是被测模型之一，但它连自家 billing 数据的 13 行求和都没算对。Input Hit 参考答案是 255,099,264，它算出了 255,119,064；连请求次数都数错了（3,534 vs 正确的 3,334）。更要命的是，这个错误一路传导到第三、四、五题，最终 53 分，不及格。

MiniMax 2.7 的问题更严重。不止求和出错，它还把旧套餐的计费规则理解错了。旧套餐是「统一单价」（pro 按 2、v2.5 按 1），它算成了各类都乘以 2。结果得出了「7 亿额度不够用」的结论，和参考答案完全相反。到了第五题，新套餐 328 元只能买 2.12 亿 Token，比旧套餐的 3.55 亿还少。这么荒谬的数字，它竟然没察觉到矛盾。

Qwen 3.6 Plus 前四题全对，眼看就要满分。结果第五题把「约 3.55 亿 Token」写成了「167 Token」——明显是算出了 328 ÷ 1.97 ≈ 166.5，然后直接当结果写了，丢了亿级单位。从 100 分掉到 92 分，只能说可惜。

还有一个观察值得说一下：第六题是唯一的主观分析题，即使前面数据全错的模型，分析框架和推荐逻辑也基本合理。MiMo 2.5 Pro 给出了「新套餐更划算」的正确推荐，MiniMax 2.7 的风险分析框架也没毛病。推理能力和计算能力大概是两个独立维度，算不对数不影响想明白道理。

如果把这次测试比作选信用卡：满分的 7 个模型就像那些「无脑推荐」的好卡，权益扎实、年费合理，闭眼选就行。96-99 分的 4 个模型是「基本够用但有微小瑕疵」，不影响核心判断，细节控可能会在意。

Qwen 3.6 Plus 像一张「活动很好但偶尔翻车」的卡，大部分时候靠谱，但偶尔来个「167 Token」式的操作让人哭笑不得。MiMo 2.5 Pro 和 MiniMax 2.7 就像权益严重缩水的卡，连基本功都不过关，用起来还得自己再验算一遍，反而更费时间。

结语

这次测试让蓝翼感触最深的是：AI 推理是一把好手，基本功却频频翻车。

13 行数字的加法，人类用 Excel 五秒钟就能验证。但当 AI 在这个环节翻车时，后续所有的分析、建议、推荐都变成了空中楼阁，而且它自己完全不知道。

类似的还有数据搜集。如果你没有喂给它靠谱的来源，AI 有时候会编造一个看上去很真的源头，这也是现阶段 AI 最主要的幻觉。

所以蓝翼建议：用 AI 算账没问题，但关键数据一定要自己验一遍。 尤其是汇总、求和这类看似简单的操作，恰恰是 AI 最容易出错的地方。至于那 7 个满分选手嘛，至少在算账这件事上，它们是靠谱的。

大家平时用 AI 做计算多吗？有没有翻车的经历？留言里聊聊吧。

推荐阅读：好物｜最近入手的几件数码小东西，618可以蹲。

上篇文章：三大运营商开始送 Token 了，但值得吗？

本文测试基于蓝翼自己的使用场景和数据，仅代表个人观点，不代表对任何模型的全面评价。

欢迎关注和收藏蓝翼的公众号

分享、点赞、在看三连起来！