软件测试选择哪个AI大模型?-夜雨聆风

软件测试选择哪个AI大模型?

最近我用几个大模型实验了一下怎么做测试相关的工作。综合测试下来，个人感觉就测试而言，并不需要去过多的追求哪个模型更聪明。

更聪明的模型往往更贵，消耗的token更多。最后，可能模型能做的事情还覆盖不了投进去的成本，尤其是当自己付费买 token 的时候。

有条件的当然可以无脑上御三家，claude，gpt，gemini 都已经足够聪明，每个擅长的事情都不太一样，做测试的话，太贵，而且用起来真的不太方便。

国内目前选择就有点多了。kimi，GLM，minimax，deepseek，当然有的人也会选择像豆包或者是千问，还有最近小米出来的大模型。

最后还是选择了 kimi。

辅助做 ai 测试主要是这些内容：

一是审查需求文档，原型和设计。需要模型能支持全模态，能读懂图片，甚至视频，但不需要生成。这里面 minimax 和 deepseek 还是偏弱。

二是根据需求生成测试点，测试用例，风险点，缺陷管理和测试报告。这其实不需要模型有多聪明，稍微会一点推理的模型都是能做到的，重要的是要给模型喂好一点的提示词，有一个更好的技能，需要持续优化。

还需要模型用 ai Agent 自动生成 api，ui 自动化测试。这个目前还在慢慢实验，怎么和开发流程对接起来。自动化测试推了那么些年，真正在哪些地方有价值，还没有公论。

但是要生成代码，并且能解析网页的话，模型的速度还是不能太慢，然后 token 的消耗也不会少。

另外，用 ai 审查开发提交的代码，做精准测试也是需要考虑的。

体验下来，kimi 确实还可以的，如果还没有上 token plan 的打算，可以用免费的 app 先体验一下。

～我是雨泽，一起探讨 ai 辅助测试吧。