AI时代:测试经理的20道AI大模型面试题(含答案)-夜雨聆风

AI时代:测试经理的20道AI大模型面试题(含答案)

前几天和一个做了8年测试的朋友聊天，他说他们公司开始推AI测试了，老板问他”你怎么看这件事”。他当时有点懵，说实话，不太知道该怎么回答。

这其实是很多测试经理现在面临的问题。AI来了，我们到底要做什么？要学什么？团队怎么带？

我整理了20个面试中经常出现的问题，配上我的理解。不一定对，但都是实际工作中会遇到的。

一、先搞懂基本概念

1. 大语言模型和以前说的”AI”是一回事吗？

说实话，不太一样。

以前我们说的AI，基本都是”专项AI”——比如专门做图像识别的、专门做语音转文字的。每个AI只能干一件事，而且得针对这个场景单独训练。

大语言模型（LLM）不一样，它是”通用”的。你跟它说人话，它能理解，还能干各种活——写代码、写文档、分析问题、甚至跟你聊天。

对测试来说，最大的区别是：以前的AI是工具，现在的AI更像是”助手”。你可以跟它对话，让它帮你干活，而且它还能理解上下文。

不过有个问题得注意：LLM的输出是”非确定性”的。你问两遍同样的问题，可能得到两个不太一样的答案。这对测试来说是个挑战——我们习惯了对确定的东西进行测试，现在得学会应对”不确定”。

2. Token是什么？为什么测试要关心这个？

Token就是大模型”看书”的最小单位。英文大概4个字母算1个token，中文大概1.5-2个字算1个token。

为什么要关心？三个原因：

第一，钱的问题。用API调用大模型是按token收费的。你如果让AI帮你生成1000条测试用例，得算算成本。我们团队试过，生成一份中等规模的测试用例集，大概要花10-20块钱（看用什么模型）。看起来不多，但如果每天都用、每个人都用，得有个预算。

第二，输入长度限制。每个模型都有token上限。比如GPT-4是8K token（大概6000字中文），Claude可以到100K。如果你把整个需求文档（几万字）直接贴给AI，它读不完，后面的内容就丢了。

第三，输出也可能被截断。 AI生成的内容如果太长，也可能被强制截断。我们遇到过生成测试用例时，生成到第15条突然断了的情况。

实际建议：跟AI交互时，把任务拆小。不要一次性让它”帮我生成整个系统的测试用例”，而是”帮我生成登录模块的测试用例”。

3. 提示词工程（Prompt Engineering）到底是什么？

说人话就是：怎么跟AI说话，它才能听懂你要什么。

我举个对比的例子。

不好的问法：”帮我写个登录的测试用例”

这种问法，AI不知道你要什么格式的、要覆盖哪些场景、要详细到什么程度。它只能猜，猜错了你还得重新问。

好一点的问法：”你是一个有5年经验的测试工程师。现在需要为Web系统的登录功能设计测试用例。要求覆盖：正常登录、异常登录（密码错误、账号不存在）、边界情况（空输入、超长输入）。每个用例要包含：用例标题、前置条件、操作步骤、预期结果。用Markdown表格输出。”

看到区别了吗？你把背景、任务、要求、格式都讲清楚了，AI就不用猜了。

我们团队现在有个”提示词模板库”，把常见的任务（生成用例、生成脚本、分析缺陷）都写好了模板，大家直接用。效率提升很明显。

4. 大模型有什么毛病？测试工作中怎么避开？

说实话，大模型有几个挺让人头疼的问题：

幻觉（Hallucination）——它会编。你问它”你们的登录功能支持指纹识别吗？”，它可能真的给你编一个答案，而且编得很像那么回事。所以AI生成的内容，关键部分必须人工复核。

记性不好——你跟它聊了10轮，它可能忘了第1轮你说的是什么。所以不要把重要信息只放在对话里，要写到需求文档或者测试用例里。

逻辑能力一般——让它做复杂的业务逻辑判断，容易出错。比如”如果用户余额不足，而且今天是周五，而且他是中国区用户，应该怎么处理？”这种多层条件的判断，AI容易搞混。

知识有截止日期——它不知道最新上线的功能。所以跟它讨论具体项目时，得把相关文档发给它看。

我们团队的做法是：AI负责”初稿”，人工负责”把关”。这样既能提高效率，又不会出大问题。

二、AI能帮测试做什么？

5. AI能替代哪些测试工作？

先说结论：AI不太可能完全替代测试工程师，但会替代一部分重复性工作。

AI比较擅长的：

根据需求文档，生成测试用例初稿（然后人工优化）

生成测试数据，尤其是边界值、异常数据

根据测试用例描述，生成自动化脚本代码

根据报错日志，生成缺陷报告的初稿

分析代码变更，推荐需要回归测试的范围

AI不太行的：

制定测试策略——这个需要你理解业务、理解风险，需要判断

探索性测试——需要人的直觉，需要”乱点”和”尝试”

用户体验评估——”这个交互顺不顺手”，AI很难判断

复杂业务场景的设计——比如”双11大促的全链路压测场景”，AI不太懂业务

我自己的感受是：AI把测试工程师从”执行者”推向了”审核者+决策者”。以前我们花60%的时间写用例、写脚本，现在这部分可以让AI做初稿，我们花更多时间在做决策、做分析。

6. 怎么判断AI生成的测试用例好不好？

我们团队现在是这样做的：

第一步：看覆盖率。把AI生成的用例和需求文档对比，看看有没有遗漏的功能点。我们用的办法比较土，但有效——拿Excel表，左边列需求点，右边列用例，人工过一遍。

第二步：看可执行性。 AI生成的用例，有时候步骤写得很模糊。比如”验证登录功能”——怎么验证？输入什么？点哪个按钮？这种用例得人工细化。

第三步：看冗余度。 AI有时候会生成很多相似的用例。比如”密码为空”、”密码为空格”、”密码为null”，可能就是同一个问题的三种表述。这种得合并。

第四步：抽样执行。随机挑20%的用例实际执行一下，看看AI的预期结果对不对。如果准确率能到90%以上，说明AI生成的质量还可以。

一个小技巧：如果AI生成的用例质量不好，不要急着否定AI，先看看是不是你的提示词写得不够清楚。我们经常是优化了提示词之后，生成的用例质量明显提升。

7. 自动化测试维护一直是个痛点，AI能帮忙吗？

能帮上忙，而且帮得挺大。

痛点1：UI变了，脚本全挂了

这是做自动化测试的人最头疼的事。前端改了个按钮的id，50个脚本都定位不到这个按钮了。

AI可以帮你分析DOM变化，推荐新的定位器。比如以前用的是id=login-btn，现在按钮改成class=btn-primary了，AI可以建议你改成css=.btn-primary。

更进一步，有些工具（比如Testim、Mabl）已经在做这件事了——当元素定位失败时，自动尝试其他定位策略，不需要人工干预。

痛点2：脚本失败了，不知道为什么

跑自动化测试，100个用例挂了30个。传统做法是逐个看报错日志，很耗时。

AI可以帮你把失败原因归类。比如”这15个失败都是因为’元素未找到’，可能是页面加载慢了；这10个失败都是因为’断言失败’，可能是数据问题”。这样你可以按类别去修复，效率高很多。

痛点3：测试数据准备麻烦

要做性能测试，需要1000个模拟用户。传统做法是写SQL脚本或者让开发帮忙。

AI可以根据你的数据模型，直接生成模拟数据。比如你说”我需要1000条用户数据，包含姓名、手机号、邮箱，手机号要符合中国大陆格式”，AI可以很快生成。

8. 回归测试怎么用AI提效？

回归测试最大的问题是：每次全量跑太慢，只跑一部分又怕漏。

AI可以帮你做”智能用例选择”——分析这次代码变更影响了哪些模块，然后推荐应该跑哪些测试用例。

原理大概是这样：把代码变更（diff）和测试用例的对应关系告诉AI，它会分析哪些用例最可能受到影响。我们试过，原本要跑500个用例，AI推荐跑150个，结果发现缺陷的效果差不多（漏测率只增加了2-3%），但时间缩短了70%。

另外，AI还可以帮你做”缺陷预测”——根据历史数据，告诉你哪些模块容易出bug，建议你多做探索性测试。

9. 性能测试能用上AI吗？

能用，但现在还不太成熟。

有一些工具在尝试，比如用AI生成更真实的负载模型（模拟用户的访问模式），或者用AI分析性能数据、自动定位瓶颈。

但我们实际用下来，感觉AI在性能测试里更适合做”辅助分析”——比如你跑完压测，把数据给AI，让它帮你分析”为什么TPS在这个时间点掉下来了”。至于测试场景设计、目标设定，还是得人来。

三、工具选型和平台建设

10. 如果要建团队的AI测试能力，你怎么规划？

这个问题我被问过好几次，说说我们的做法。

第一阶段：小范围试点（1-3个月）

不要一上来就全员推广，很容易翻车。先选1-2个场景，比如”AI辅助生成测试用例”，在小范围内试用。

选什么工具？我们当时试了几个：

ChatGPT API（灵活，但需要自己封装）

GitHub Copilot（写代码挺好用）

国内的智能助手API（成本低一些）

试完之后，出一份试点报告，讲清楚：用了什么、效果怎么样、有什么问题、值不值得推广。

第二阶段：制定规范+培训（3-6个月）

如果试点效果不错，开始推广。但这时候不能只把工具发给团队就完事了，得有配套的东西：

使用规范：什么场景可以用AI、什么场景不能用

提示词模板库：大家不用每次都从零开始写提示词

培训：教大家怎么写提示词、怎么评估AI生成的内容

第三阶段：平台化（6-12个月）

如果用了半年，效果确实好，可以考虑把AI能力集成到测试管理平台里。比如点在”生成用例”按钮，系统自动调用AI，生成完直接保存到用例库。

这样用起来更方便，也更容易量化效果（比如”这个月AI生成了500条用例，节省了XX小时”）。

11. 现在有哪些AI测试工具值得看？

说几个我们用过或者调研过的：

测试用例生成：

Testim、Mabl——国外的，比较成熟，但贵

MeterSphere——国内的，有AI能力集成，性价比还行

代码辅助：

GitHub Copilot——写自动化脚本时挺好用，能省不少时间

Tabnine——类似Copilot，但更轻量

视觉测试：

Applitools——用AI做UI截图对比，适合有大量页面需要回归的场景

Percy——类似Applitools

选工具的时候，我们主要看五个维度：跟现有工具链能不能集成、生成内容准不准、团队学习成本高不高、多少钱、数据能不能私有化部署。

最后这点（数据安全）特别重要。我们一开始有人直接把公司代码贴到ChatGPT里去问问题，被信息安全部门警告了。后来制定了规范，只能用公司统一申请的API，不能直接用公网的ChatGPT。

12. 用AI测试，数据安全问题怎么解决？

这是个严肃的问题。

风险点：

你把公司的代码、需求文档上传到公有云AI，这些信息可能被”记住”

测试数据里可能有敏感信息（手机号、身份证），如果直接发给AI，就泄露了

AI生成的代码，可能有安全漏洞

我们的做法：

第一，制定规范。明确哪些信息可以发给AI、哪些不行。比如”代码可以，但配置文件不行”、”模拟数据可以，但真实用户数据不行”。

第二，尽量用支持私有化部署的AI。比如我们后来部署了一个本地的ChatGLM，数据不出公司内网，安全很多。

第三，AI生成的代码，必须经过安全扫描才能提交。

13. 怎么证明AI测试是值得投入的？

老板肯定会问这个问题：”我花20万买AI工具，能省多少钱？”

我们当时是这么算的：

效率提升：

以前写100条测试用例，要2天；现在AI生成初稿+人工优化，大概半天。节省75%的时间。

按我们团队10个人算，每人每周省4小时，一年就是2000小时。按人均成本30万/年算，节省的人力成本大概是30万。

工具成本：

AI工具采购：20万/年

实施和培训：5万

ROI = (30 – 25) / 25 = 20%

第一年可能回不了本，但第二年、第三年，工具成本摊薄了，ROI会更高。

除了钱，还有一些”软性价值”很难量化，但也得说：比如团队满意度提高了（不用干重复性工作了）、对业务的响应速度快了。

四、团队管理和人员转型

14. AI时代，测试工程师要学什么新东西？

说实话，变化挺大的。

以前测试工程师的核心能力：需求分析、用例设计、自动化脚本、缺陷管理。

现在要新增的：

提示词工程——怎么跟AI对话，让它产出你要的东西。这个现在已经是必备技能了。

AI工具评估——市面上那么多AI工具，哪个适合你的场景？得会评估。

AI输出质量评估——AI生成的东西，你得能判断好不好、能不能用。

我们团队现在的要求是：初级测试要会用AI辅助日常工作（比如生成用例、生成数据），中级测试要能评估AI工具并优化工作流程，高级测试要能设计AI测试方案。

15. 团队里有人抵触AI，怎么办？

这个问题真的很常见。我见过几种抵触的原因：

“我怕被替代”——这是最多的。得跟他们讲清楚：AI是助手，不是替代者。它帮你干重复性工作，你可以去做更有价值的事。

“我觉得AI没用”——可能是试过但效果不好。这时候不要急着说服，拿数据说话。我们当时做了一个对比：同一份需求，传统方式写用例要4小时，AI辅助要1小时。大家看到实际效果，自然就接受了。

“我不想学新东西”——这个比较麻烦。只能靠培训和激励。我们后来设了一个”AI应用创新奖”，谁用AI解决了实际问题，给奖励。

16. 怎么设计AI测试的培训？

我们做的是分层培训。

全员都要学的： AI基础知识、提示词工程入门、AI工具使用规范。大概4小时。

按角色深入的：

测试工程师：学怎么用AI生成用例、生成脚本

自动化工程师：学怎么用AI优化脚本维护

测试经理：学怎么评估AI工具、怎么算ROI

持续学习：建一个内部群，大家分享”我用AI做了什么”。定期举办”提示词优化工作坊”，一起讨论怎么把提示词写得更好。

17. AI会不会替代测试经理？

短期（3-5年）不会，但工作方式会变。

测试经理的核心价值在哪里？决策、沟通、判断。这些事，AI很难做。

比如：这个项目要不要做性能测试？测到什么程度？发现了一个缺陷，要不要阻塞发布？这些问题需要你权衡风险、理解业务、跟各方沟通，不是AI能搞定的。

但日常工作方式会变。以前可能要亲自写测试计划、亲自审查用例，现在可以让AI做初稿，你来做审核和决策。

我自己的感受是：学会跟AI协作，比抗拒它更有用。AI不会替代你，但”会用AI的测试经理”会替代”不会用AI的测试经理”。

五、一些前瞻性思考

18. 除了大语言模型，还有哪些AI技术可以用在测试里？

说几个：

计算机视觉（CV）——已经比较成熟了。比如用CV做UI自动化，不依赖元素定位，直接”看”页面。Applitools就是这么做的。

代码大模型（Code LLM）——专门用来生成和理解代码的，比如CodeGeex、Code LLaMA。生成测试脚本时，比通用大模型更准确。

多模态大模型——可以”看懂”截图、视频。比如你截一个页面图，它能告诉你”这个页面有哪些元素、分别在哪里”。将来可能做到”截图→自动生成测试用例”。

其他的，比如强化学习、知识图谱，也有人在研究，但还没到成熟应用的阶段。

19. “AI完全自主测试”可能实现吗？

我的看法是：部分场景可以，但完全自主不太现实。

为什么？因为测试的本质是”质疑”——你要去找系统的毛病，要思考”这里会不会有问题”。这种批判性思维，AI不太擅长。AI更擅长的是”执行已知的任务”，而不是”发现未知的问题”。

但部分场景可以实现高度自动化。比如回归测试，AI可以自动选择用例、自动执行、自动分析失败原因。这在一定程度上已经能做到。

探索性测试，AI可以辅助，比如给你推荐”可以试试这些场景”，但主导的还是人。

20. 如果要你给CTO汇报”AI测试战略”，你怎么讲？

这个问题我被问过。说说我们的套路。

开场不要讲概念，讲问题。 “我们现在回归测试要跑2天，自动化脚本维护成本很高，想用AI解决这个问题。”

然后讲方案，分阶段讲。 “第一阶段我们先试点3个月，看效果。如果好，再推广。”

然后讲钱。 “预计投入25万，节省人力成本30万，ROI大概20%。”

最后讲风险。 “主要风险是AI生成内容的质量不稳定，我们的应对措施是’AI生成+人工审核’。”

结尾要一个明确的决策。 “今天想请您批一下试点预算，3个月后我再来汇报结果。”

最后的话

AI来了，测试经理要做什么？我觉得核心就三点：

第一，自己先搞懂。不知道AI能干什么、不能干什么，就没法带领团队。

第二，选好场景，小步快跑。不要一上来就搞大平台，先在一个小场景里试用，看到效果再推广。

第三，关注人。团队的能力转型、心理疏导，可能比技术本身更重要。

这篇文章里的观点，都是我们在实际工作中摸索出来的，不一定对，但都是真实体会。如果你也在做AI测试相关的事，欢迎交流。

每一次互动，皆是鼓励，每一份支持，共促成长。

商务合作:RYXtest