软件测试选择哪个AI大模型?
最近我用几个大模型实验了一下怎么做测试相关的工作。综合测试下来,个人感觉就测试而言,并不需要去过多的追求哪个模型更聪明。
更聪明的模型往往更贵,消耗的token更多。最后,可能模型能做的事情还覆盖不了投进去的成本,尤其是当自己付费买 token 的时候。
有条件的当然可以无脑上御三家,claude,gpt,gemini 都已经足够聪明,每个擅长的事情都不太一样,做测试的话,太贵,而且用起来真的不太方便。
国内目前选择就有点多了。kimi,GLM,minimax,deepseek,当然有的人也会选择像豆包或者是千问,还有最近小米出来的大模型。
最后还是选择了 kimi。
辅助做 ai 测试主要是这些内容:
一是审查需求文档,原型和设计。需要模型能支持全模态,能读懂图片,甚至视频,但不需要生成。这里面 minimax 和 deepseek 还是偏弱。
二是根据需求生成测试点,测试用例,风险点,缺陷管理和测试报告。 这其实不需要模型有多聪明,稍微会一点推理的模型都是能做到的,重要的是要给模型喂好一点的提示词,有一个更好的技能,需要持续优化。
还需要模型用 ai Agent 自动生成 api,ui 自动化测试。 这个目前还在慢慢实验,怎么和开发流程对接起来。 自动化测试推了那么些年,真正在哪些地方有价值,还没有公论。
但是要生成代码,并且能解析网页的话,模型的速度还是不能太慢,然后 token 的消耗也不会少。
另外,用 ai 审查开发提交的代码,做精准测试也是需要考虑的。
体验下来,kimi 确实还可以的,如果还没有上 token plan 的打算,可以用免费的 app 先体验一下。
~我是雨泽,一起探讨 ai 辅助测试吧。
夜雨聆风