Open Claw从入门到入土:实测各大AI模型,性价比之王颠覆你的认知 03-夜雨聆风

Open Claw从入门到入土:实测各大AI模型,性价比之王颠覆你的认知 03

一．给AI出道题

通过前面两篇文章分析，龙虾好不好用，能不能用，关键在于配套的AI模型。

所以，在部署龙虾之前，需要对当前市面上的主流AI模型做个测验。找出智商能打，消费合理的性价比之王。

测验题目设计要与项目管理相关，不能简单，也不能太复杂。所以，给出明确条件，让AI模型自动生成一个项目计划，刚好合适。

思路如下：

1. 将项目经理与客户聊天记录生成txt文件，再弄一份专业的项目计划Excel模版，同时喂给AI模型。

2. 编写结构化的指令提示（prompt），明确告知AI模型项目背景，任务流程，约束条件以及输出成果。

3. 验收AI模型输出成果，进行质量评分。同时评估AI完成此项任务烧掉的token价格。

4. 最后算出AI模型性价比 = 输出成果评分 / (token数量*token单价)

聊天记录已经编制完成，跟本人一样，长得不行，就不放出来影响阅读体验。需要了解的兄弟可以直接访问以下链接：

附录1：5060项目聊天记录（AI模型测试素材）

然后根据聊天记录，整理出一份项目开发计划模版，包括项目阶段，起止时间，任务完成百分比，进度风险评估以及甘特图：

文档搞定后，开始设计指令提示（prompt）。

弄完之后，发现Prompt也长得不行，需要了解的兄弟可以直接访问以下链接：

附录2：5060项目指令提示（AI模型测试素材）

搞定准备工作，接下来就是挨个投喂给AI模型。先从国内的主流AI模型开始，依次考验一下DeepSeek，Kimi，阿里千问，腾讯混元，智谱GLM以及字节豆包的智商。

二．DeepSeek智商测试

DeepSeek网页版地址：

https://chat.deepseek.com/

当前DeepSeek网页版没有任务助手（Agent）模式，只能在消息框下面选择深度思考和网络搜索功能。粘贴Prompt，并插入聊天记录以及计划模版：

输出成果：

针对DeepSeek输出的计划进行评分（满分50），明细如下：

○ 各阶段工期进度安排 (满分25)

进度规划的逻辑没有问题，虽然大部分照抄Prompt里的信息，但好歹排出了极限进度计划。

不过有两个细节做得很烂：

1. DeepSeek给出的进度计划里不能直接显示时间。

2. DeepSeek算错了日期，它原本打算在11月8日交付，但是给出的最终交付日期46328，经过Excel的转换是11月2日。

综合评分：25-5-5=15分。

○ 各阶段进度风险评估 (满分15)

风险评估比较专业，符合该项目逻辑，偶尔一两条流于表面，但是发给客户还是能应付差事的。

综合评分：15-2=13分。

○ 可以按起止时间以及完成百分比生成甘特图 (满分5)

不能生成。

综合评分：0分。

○ 可以按文件名称要求生成Excel文件 (满分5)

不能生成Excel文件，但是给出了Python代码，也就是skill。可惜给出的Python代码也有问题，纠正了两次才搞定，只能给个态度分。

综合评分：1分。

DeepSeek总得分：29

再来算算DeepSeek的 token费用：

1. 我提供的测试素材总共是2500字，按1个汉字 = 2 token计算，输入的token是5000个。

2. DeepSeek输出的答案烧掉3000个token（没有生成Excel文件）。

3. 按DeepSeek V4 Pro的最新价格计算：输入token是13 RMB/百万，输出token是26 RMB/百万，最终烧掉了0.143 RMB。

最终得出DeepSeek性价比系数 = 29/0.143 = 203

三．Kimi（月之暗面）智商测试

Kimi网页版地址：

https://www.kimi.com/

Kimi网页版有任务助理（Agent）模式，直接选择，再粘贴Prompt，并插入聊天记录以及计划模版：

输出成果：

针对Kimi输出的计划进行评分（满分50），明细如下：

○ 各阶段工期进度安排

进度规划的逻辑没有问题，比DeepSeek更智能的是Kimi在PVT阶段贴心地增加了3天时间，必须点赞。

不过跟DeepSeek有个同样的毛病，那就是输出的进度计划里不能直接显示时间。

综合评分：25-5=20分。

○ 各阶段进度风险评估

风险评估比较专业，把聊天记录内容引用到极致，再次点赞。

综合评分：15分。

○ 可以按起止时间以及完成百分比生成甘特图

可以生成。

综合评分：5分。

○ 可以按文件名称要求生成Excel文件

可以生成。

综合评分：5分。

Kimi总得分：45

再来算算Kimi的 token费用：

1. 跟DeepSeek一样，输入的token是5000个。

2. Kimi输出的答案烧掉10000个token。

3. 按Kimi 2.6的最新价格计算：输入token是7 RMB/百万，输出token是29 RMB/百万，最终烧掉了0.325 RMB。

最终得出Kimi性价比系数 = 45/0.325 = 138

四．阿里千问智商测试

阿里千问网页版地址：

https://www.qianwen.com/chat/

阿里千问网页版也有任务助理（Agent）模式，直接选择，粘贴Prompt，并插入聊天记录以及计划模版：

输出成果：

针对千问输出的计划进行评分（满分50），明细如下：

○ 各阶段工期进度安排

进度安排出现重大问题，EVT与开模（T0）的开始时间仅间隔4天，虽然像极了一些无良客户的要求，但是风险开模纠错代价太大，不符合进度规划的逻辑。

另外，各阶段的工期完全照搬Prompt给出的安全时间，完全不考虑聊天记录中项目的紧迫性，整个计划像是被硬生生拼成一样，压根不给研发项目经理留活路。

综合评分：0分。

○ 各阶段进度风险评估

风险评估非常业余，逻辑跳跃，语句还不太通顺，如果直接发给客户看，一定会挨叼。

综合评分：0分。

○ 可以按起止时间以及完成百分比生成甘特图

可以生成。

综合评分：5分。

○ 可以按文件名称要求生成Excel文件

可以生成。

综合评分：5分。

阿里千问总得分：10

再来算算千问的 token费用：

1. 输入的token是5000个。

2. 千问输出的答案烧掉10000个token。

3. 按千问 Max的最新价格计算：输入token是4 RMB/百万，输出token是16 RMB/百万，最终烧掉了0.18 RMB

最终得出阿里千问性价比系数 = 10/0.18 = 56

五．腾讯混元智商测试

腾讯混元网页版地址：

https://aistudio.tencent.com/

腾讯混元既没有任务助理（Agent）模式，也不能导入附件，一度让我想放弃，但是本着科学求是的态度，只能单独为它修改Prompt，并手动添加聊天记录：

输出成果：

针对混元输出的计划进行评分（满分50），明细如下：

○ 各阶段工期进度安排

果然，当年的BAT三大巨头在如今在AI领域依旧势均力敌。

正如前面的阿里千问，腾讯混元在进度安排上也出现重大问题，直接把PVT时间压缩到12天，完全不给NPI工程师活路。这两大互联网巨头，一前一后地埋葬了制造业项目管理这个职业。

综合评分：0分。

○ 各阶段进度风险评估

风险评估非常鸡贼，跟阿里千问半斤八两，直接发给客户看，依然逃不过挨叼的命运。

综合评分：0分。

○ 可以按起止时间以及完成百分比生成甘特图

不能生成，但是贴心地给出了如何在Excel里制作甘特图，给个态度分。

综合评分：1分。

○ 可以按文件名称要求生成Excel文件

不能生成，但是贴心地告诉你可以把页面上生成表格复制粘贴到Excel里，给个态度分。

综合评分：1分。

腾讯混元总得分：2

再来算算混元的 token费用：

1. 输入的token是4000个，因为混元不支持附件导入，所以计划模版的token就不用算进去。

2. 混元输出的答案烧掉2000个token，因为没有生成计划文件。

3. 按混元Turbo的最新价格计算：输入token是2.5 RMB/百万，输出token是10 RMB/百万，最终烧掉了0.03 RMB

最终得出腾讯混元性价比系数 = 2/0.03 = 67，力压阿里千问。

六．智谱AI智商测试

智谱AI网页版地址：

https://chat.z.ai/

智谱没有Agent模式（任务助理），直接粘贴Prompt，并插入聊天记录以及计划模版

输出成果：

针对智谱输出的计划进行评分（满分50），明细如下：

○ 各阶段工期进度安排

进度排期跟DeepSeek一模一样，比DeepSeek强的地方在于可以直接显示日期，不用Excel转化，但是这个CSV格式排版容易激发项目经理的强迫症，扣除用户体验分。

综合评分：25-5-3=17分。

○ 各阶段进度风险评估

风险评估有些敷衍，直接发给客户会不会挨叼，完全取决于客户当时的心情。

综合评分：2分。

○ 可以按起止时间以及完成百分比生成甘特图

不能直接生产，但是在CSV里画了用✳号做了个甘特图，比DeepSeek好点，给个态度分。

综合评分：1分。

○ 可以按文件名称要求生成Excel文件

不能生成，但是贴心地告诉你可以把页面上生成表格复制粘贴到Excel里，给个态度分。

综合评分：1分。

智谱AI总得分：21分

再来算算智谱的 token费用：

1. 输入的token是5000个。

2. 智谱AI输出的答案烧掉3000个token，因为没有生成计划文件。

3. 按智谱GLM-5的最新价格计算：输入token是6 RMB/百万，输出token是24 RMB/百万，最终烧掉了0.102 RMB

最终得出智谱AI性价比系数 = 21/0.102 = 206

七．字节豆包智商测试

字节豆包网页版地址：

https://www.doubao.com/chat

豆包不用选择模式，直接粘贴Prompt，插入聊天记录以及计划模版：

输出成果：

给豆包输出的计划进行评分（满分50），明细如下：

○ 各阶段工期进度安排

排计划逻辑没问题，还知道给DVT2和PVT多加1天时间，比阿里千问和腾讯混元强太多。

但是依旧不能直接显示时间，需要在Excel里进行转换。

综合评分：25-5=20分。

○ 各阶段进度风险评估

豆包的风险评估是最详细的，并预警了风险，还给出应对方案，非常专业，这个得加分。

综合评分：15+3=18分。

○ 可以按起止时间以及完成百分比生成甘特图

可以生成甘特图，但是甘特图有点乱，需要重做，给个态度分。

综合评分：1分。

○ 可以按文件名称要求生成Excel文件

可以生成。

综合评分：5分。

字节豆包总得分：44分

再来算算豆包的 token费用：

1. 输入的token是5000个。

2. 豆包输出的答案烧掉10000个token。

3. 按豆包Pro的最新价格计算：输入token是3.5 RMB/百万，输出token是18 RMB/百万，最终烧掉了0.198 RMB

最终得出字节豆包性价比系数 = 44/0.198 = 223

八、AI模型评分汇总与结论

将当前国内六大AI模型的各项数据整理对比：

你会惊讶地发现，性价比最高的居然是字节豆包，这也算是用数据颠覆认知。

不过性价比参数也仅供参考。

比如，DeepSeek和智谱，评分比Kimi高很多，但是如果要做选择，我一定用Kimi，不用这两个。

为啥？

因为AI是工具，使用工具的原则首先是能否达到你的要求，再看工具有多贵。

DeepSeek和智谱虽然价格比Kimi便宜，但是做出来的东西只是个半成品，还得人为进行二次加工。

花钱买个不痛快，图啥？

所以，功能评分至少占满分90%的AI才能用，因为它实现了你90%的预期，剩下10%稍作调整就能交付，这才算真正地提高了工作效率。

满足这个条件后，再去对比AI模型的价格。

因此，基于本次实验设计，最终结论如下：

1. 作为项目经理，如果你是公款养龙虾，首选Kimi 2.6。

2. 如果你是自费养龙虾，首选字节Doubao Pro。

最后，在正式养龙虾之前，针对大家最关心的养殖成本问题，我会专门写一篇，深度分析龙虾的成本构成，并探讨降本方案，敬请期待。

（未经本人许可，请勿转载或商业用途）