Open Claw从入门到入土:实测各大AI模型,性价比之王颠覆你的认知 03
一.给AI出道题
通过前面两篇文章分析,龙虾好不好用,能不能用,关键在于配套的AI模型。
所以,在部署龙虾之前,需要对当前市面上的主流AI模型做个测验。找出智商能打,消费合理的性价比之王。
测验题目设计要与项目管理相关,不能简单,也不能太复杂。所以,给出明确条件,让AI模型自动生成一个项目计划,刚好合适。
思路如下:
1. 将项目经理与客户聊天记录生成txt文件,再弄一份专业的项目计划Excel模版,同时喂给AI模型。
2. 编写结构化的指令提示(prompt),明确告知AI模型项目背景,任务流程,约束条件以及输出成果。
3. 验收AI模型输出成果,进行质量评分。同时评估AI完成此项任务烧掉的token价格。
4. 最后算出AI模型性价比 = 输出成果评分 / (token数量*token单价)
聊天记录已经编制完成,跟本人一样,长得不行,就不放出来影响阅读体验。需要了解的兄弟可以直接访问以下链接:
然后根据聊天记录,整理出一份项目开发计划模版,包括项目阶段,起止时间,任务完成百分比,进度风险评估以及甘特图:

文档搞定后,开始设计指令提示(prompt)。
弄完之后,发现Prompt也长得不行,需要了解的兄弟可以直接访问以下链接:
搞定准备工作,接下来就是挨个投喂给AI模型。先从国内的主流AI模型开始,依次考验一下DeepSeek,Kimi,阿里千问,腾讯混元,智谱GLM以及字节豆包的智商。
二.DeepSeek智商测试
DeepSeek网页版地址:
https://chat.deepseek.com/
当前DeepSeek网页版没有任务助手(Agent)模式,只能在消息框下面选择深度思考和网络搜索功能。粘贴Prompt,并插入聊天记录以及计划模版:

输出成果:

针对DeepSeek输出的计划进行评分(满分50),明细如下:
○ 各阶段工期进度安排 (满分25)
进度规划的逻辑没有问题,虽然大部分照抄Prompt里的信息,但好歹排出了极限进度计划。
不过有两个细节做得很烂:
1. DeepSeek给出的进度计划里不能直接显示时间。
2. DeepSeek算错了日期,它原本打算在11月8日交付,但是给出的最终交付日期46328,经过Excel的转换是11月2日。
综合评分:25-5-5=15分。
○ 各阶段进度风险评估 (满分15)
风险评估比较专业,符合该项目逻辑,偶尔一两条流于表面,但是发给客户还是能应付差事的。
综合评分:15-2=13分。
○ 可以按起止时间以及完成百分比生成甘特图 (满分5)
不能生成。
综合评分:0分。
○ 可以按文件名称要求生成Excel文件 (满分5)
不能生成Excel文件,但是给出了Python代码,也就是skill。可惜给出的Python代码也有问题,纠正了两次才搞定,只能给个态度分。
综合评分:1分。
DeepSeek总得分:29
再来算算DeepSeek的 token费用:
1. 我提供的测试素材总共是2500字,按1个汉字 = 2 token计算,输入的token是5000个。
2. DeepSeek输出的答案烧掉3000个token(没有生成Excel文件)。
3. 按DeepSeek V4 Pro的最新价格计算:输入token是13 RMB/百万,输出token是26 RMB/百万,最终烧掉了0.143 RMB。
最终得出DeepSeek性价比系数 = 29/0.143 = 203
三.Kimi(月之暗面)智商测试
Kimi网页版地址:
https://www.kimi.com/
Kimi网页版有任务助理(Agent)模式,直接选择,再粘贴Prompt,并插入聊天记录以及计划模版:

输出成果:

针对Kimi输出的计划进行评分(满分50),明细如下:
○ 各阶段工期进度安排
进度规划的逻辑没有问题,比DeepSeek更智能的是Kimi在PVT阶段贴心地增加了3天时间,必须点赞。
不过跟DeepSeek有个同样的毛病,那就是输出的进度计划里不能直接显示时间。
综合评分:25-5=20分。
○ 各阶段进度风险评估
风险评估比较专业,把聊天记录内容引用到极致,再次点赞。
综合评分:15分。
○ 可以按起止时间以及完成百分比生成甘特图
可以生成。
综合评分:5分。
○ 可以按文件名称要求生成Excel文件
可以生成。
综合评分:5分。
Kimi总得分:45
再来算算Kimi的 token费用:
1. 跟DeepSeek一样,输入的token是5000个。
2. Kimi输出的答案烧掉10000个token。
3. 按Kimi 2.6的最新价格计算:输入token是7 RMB/百万,输出token是29 RMB/百万,最终烧掉了0.325 RMB。
最终得出Kimi性价比系数 = 45/0.325 = 138
四.阿里千问智商测试
阿里千问网页版地址:
https://www.qianwen.com/chat/
阿里千问网页版也有任务助理(Agent)模式,直接选择,粘贴Prompt,并插入聊天记录以及计划模版:

输出成果:

针对千问输出的计划进行评分(满分50),明细如下:
○ 各阶段工期进度安排
进度安排出现重大问题,EVT与开模(T0)的开始时间仅间隔4天,虽然像极了一些无良客户的要求,但是风险开模纠错代价太大,不符合进度规划的逻辑。
另外,各阶段的工期完全照搬Prompt给出的安全时间,完全不考虑聊天记录中项目的紧迫性,整个计划像是被硬生生拼成一样,压根不给研发项目经理留活路。
综合评分:0分。
○ 各阶段进度风险评估
风险评估非常业余,逻辑跳跃,语句还不太通顺,如果直接发给客户看,一定会挨叼。
综合评分:0分。
○ 可以按起止时间以及完成百分比生成甘特图
可以生成。
综合评分:5分。
○ 可以按文件名称要求生成Excel文件
可以生成。
综合评分:5分。
阿里千问总得分:10
再来算算千问的 token费用:
1. 输入的token是5000个。
2. 千问输出的答案烧掉10000个token。
3. 按千问 Max的最新价格计算:输入token是4 RMB/百万,输出token是16 RMB/百万,最终烧掉了0.18 RMB
最终得出阿里千问性价比系数 = 10/0.18 = 56
五.腾讯混元智商测试
腾讯混元网页版地址:
https://aistudio.tencent.com/
腾讯混元既没有任务助理(Agent)模式,也不能导入附件,一度让我想放弃,但是本着科学求是的态度,只能单独为它修改Prompt,并手动添加聊天记录:

输出成果:

针对混元输出的计划进行评分(满分50),明细如下:
○ 各阶段工期进度安排
果然,当年的BAT三大巨头在如今在AI领域依旧势均力敌。
正如前面的阿里千问,腾讯混元在进度安排上也出现重大问题,直接把PVT时间压缩到12天,完全不给NPI工程师活路。这两大互联网巨头,一前一后地埋葬了制造业项目管理这个职业。
综合评分:0分。
○ 各阶段进度风险评估
风险评估非常鸡贼,跟阿里千问半斤八两,直接发给客户看,依然逃不过挨叼的命运。
综合评分:0分。
○ 可以按起止时间以及完成百分比生成甘特图
不能生成,但是贴心地给出了如何在Excel里制作甘特图,给个态度分。
综合评分:1分。
○ 可以按文件名称要求生成Excel文件
不能生成,但是贴心地告诉你可以把页面上生成表格复制粘贴到Excel里,给个态度分。
综合评分:1分。
腾讯混元总得分:2
再来算算混元的 token费用:
1. 输入的token是4000个,因为混元不支持附件导入,所以计划模版的token就不用算进去。
2. 混元输出的答案烧掉2000个token,因为没有生成计划文件。
3. 按混元Turbo的最新价格计算:输入token是2.5 RMB/百万,输出token是10 RMB/百万,最终烧掉了0.03 RMB
最终得出腾讯混元性价比系数 = 2/0.03 = 67,力压阿里千问。
六.智谱AI智商测试
智谱AI网页版地址:
https://chat.z.ai/
智谱没有Agent模式(任务助理),直接粘贴Prompt,并插入聊天记录以及计划模版

输出成果:

针对智谱输出的计划进行评分(满分50),明细如下:
○ 各阶段工期进度安排
进度排期跟DeepSeek一模一样,比DeepSeek强的地方在于可以直接显示日期,不用Excel转化,但是这个CSV格式排版容易激发项目经理的强迫症,扣除用户体验分。
综合评分:25-5-3=17分。
○ 各阶段进度风险评估
风险评估有些敷衍,直接发给客户会不会挨叼,完全取决于客户当时的心情。
综合评分:2分。
○ 可以按起止时间以及完成百分比生成甘特图
不能直接生产,但是在CSV里画了用✳号做了个甘特图,比DeepSeek好点,给个态度分。
综合评分:1分。
○ 可以按文件名称要求生成Excel文件
不能生成,但是贴心地告诉你可以把页面上生成表格复制粘贴到Excel里,给个态度分。
综合评分:1分。
智谱AI总得分:21分
再来算算智谱的 token费用:
1. 输入的token是5000个。
2. 智谱AI输出的答案烧掉3000个token,因为没有生成计划文件。
3. 按智谱GLM-5的最新价格计算:输入token是6 RMB/百万,输出token是24 RMB/百万,最终烧掉了0.102 RMB
最终得出智谱AI性价比系数 = 21/0.102 = 206
七.字节豆包智商测试
字节豆包网页版地址:
https://www.doubao.com/chat
豆包不用选择模式,直接粘贴Prompt,插入聊天记录以及计划模版:

输出成果:

给豆包输出的计划进行评分(满分50),明细如下:
○ 各阶段工期进度安排
排计划逻辑没问题,还知道给DVT2和PVT多加1天时间,比阿里千问和腾讯混元强太多。
但是依旧不能直接显示时间,需要在Excel里进行转换。
综合评分:25-5=20分。
○ 各阶段进度风险评估
豆包的风险评估是最详细的,并预警了风险,还给出应对方案,非常专业,这个得加分。

综合评分:15+3=18分。
○ 可以按起止时间以及完成百分比生成甘特图
可以生成甘特图,但是甘特图有点乱,需要重做,给个态度分。
综合评分:1分。
○ 可以按文件名称要求生成Excel文件
可以生成。
综合评分:5分。
字节豆包总得分:44分
再来算算豆包的 token费用:
1. 输入的token是5000个。
2. 豆包输出的答案烧掉10000个token。
3. 按豆包Pro的最新价格计算:输入token是3.5 RMB/百万,输出token是18 RMB/百万,最终烧掉了0.198 RMB
最终得出字节豆包性价比系数 = 44/0.198 = 223
八、AI模型评分汇总与结论
将当前国内六大AI模型的各项数据整理对比:

你会惊讶地发现,性价比最高的居然是字节豆包,这也算是用数据颠覆认知。
不过性价比参数也仅供参考。
比如,DeepSeek和智谱,评分比Kimi高很多,但是如果要做选择,我一定用Kimi,不用这两个。
为啥?
因为AI是工具,使用工具的原则首先是能否达到你的要求,再看工具有多贵。
DeepSeek和智谱虽然价格比Kimi便宜,但是做出来的东西只是个半成品,还得人为进行二次加工。
花钱买个不痛快,图啥?
所以,功能评分至少占满分90%的AI才能用,因为它实现了你90%的预期,剩下10%稍作调整就能交付,这才算真正地提高了工作效率。
满足这个条件后,再去对比AI模型的价格。
因此,基于本次实验设计,最终结论如下:
1. 作为项目经理,如果你是公款养龙虾,首选Kimi 2.6。
2. 如果你是自费养龙虾,首选字节Doubao Pro。
最后,在正式养龙虾之前,针对大家最关心的养殖成本问题,我会专门写一篇,深度分析龙虾的成本构成,并探讨降本方案,敬请期待。
(未经本人许可,请勿转载或商业用途)
夜雨聆风