AI写代码速度翻倍,测试这边该怎么办?
AI测试团子 · 2026-06-20
今天的精选聚焦 测试人最该关心的两个数字:92%和40%。92%的团队还在手工跑用例,但40%的代码已经是AI写的。Workday刚推出了AI Agent的"上线前安检系统",Eval-First AI指南教你怎么像测代码一样测AI——不懂AI也能看懂。
Workday发布Agent Passport:Agent上线前的独立安检
6月19日,Workday推出了Agent Passport——一个AI Agent上线前的独立测试和验证系统。它不只是跑几个测试用例,而是对标OWASP LLM Top 10、NIST AI RMF和MITRE ATLAS三大安全标准,对Agent进行提示注入(prompt injection)、越狱攻击(jailbreak)、系统提示提取(system prompt extraction)、数据泄漏和危险输出等全方位检测。
更关键的是架构设计:Cisco作为首个认证合作伙伴,用Cisco AI Defense进行独立验证。每个测试结果都经过加密签名,在不同厂商之间生成可比较、可审计的记录。这解决了企业Agent测试的一个核心痛点——不是没有安全测试工具,而是测试结果缺乏第三方可信度。
团子解读:Workday的方案本质上是在定义"Agent上线前的安检标准"。以前企业软件上线有渗透测试和合规审计,Agent上线也应该有,但行业一直缺这个标准。Agent Passport的三个关键词:独立验证(不是自测)、加密签名(不可篡改)、对标已知标准(OWASP/NIST/MITRE)——这可能是Agent安全测试从各自为战走向标准化的第一步。
Eval-First AI:把测试驱动开发用到AI产品上
6月19日,BotsCrew发布了一份AI产品评测指南"Eval-First AI: A Field Guide to Testing LLM Products"。核心论点简洁有力:如果产品里包含AI提示词,就必须有可重复的评测框架(eval framework),没有例外。
指南将传统软件开发的测试驱动开发(TDD)思想迁移到AI评测上:在修改提示词之前,先把失败案例加入评测数据集,修改后再确认分数回升。评测维度覆盖了grounding(事实基础)、guardrails(安全护栏)、intent recognition(意图识别)、routing(路由分发)和tool calls(工具调用),每个维度用召回率、精确率和F1分数量化。
团子解读:Eval-First的核心思想不是新技术,而是新纪律。大部分团队改AI提示词的方式是"改一改、试一试、感觉差不多就上线了"。Eval-First要求每次改动都有数据支撑。对测试人来说,这意味着一个新角色——AI评测工程师。职责不是写测试用例,而是建评测数据集、定义评分标准、追踪每次改动前后的分数变化。这个角色目前市场供给几乎为零。
92%仍手工测试,40%代码已AI生成——测试人的处境
SmartBear最新发布的AI软件质量差距报告(调查273位测试决策者)抛出了一组让人坐不住的数字:93%的团队已采用AI编码工具,40%生成至少41%的代码,但92%仍以手工测试为主,70%认为应用质量已经在下降。
这不是"未来趋势",这是正在发生的事。AI写代码的速度每季度翻倍,但测试仍然是手工为主。解决思路不是"让AI也来测"那么简单——SmartBear提出了应用完整性(Application Integrity)的概念:不只看代码有没有bug,还要看运行中的应用是否可信、安全、可用。这需要从代码审查转向运行时监控。
团子解读:92%对40%的落差是测试人今年最该关注的数据。它不是危机——是测试价值被重新定义的机会。当代码大部分是AI写的,人工审查覆盖率必然下降,测试人的核心价值就从"找代码的bug"转向"判断系统能不能用"。后者AI做不了——它需要业务理解、风险评估和用户视角。- 三个建议:开始把至少30%的测试时间从手工执行转向评测设计;学一个Agent安全测试标准(从OWASP LLM Top 10起步);关注运行时监控(application monitoring)多于代码审查。
快讯
SmartBear质量差距报告:93%采用AI编码,92%仍手工测试,70%称质量已下降。推出BearQ Agent QA系统,聚焦运行时应用完整性而非代码审查。
Ministry of Testing"Leading with AI"活动:6月19日半日专题,覆盖Agent测试、高级提示工程、AI作为"可信测试伙伴"等议题。Agentic Testing被定义为"自主AI Agent持续探索、生成、执行测试并报告结果"。
Katalon定义Agentic QA:发布完整指南阐释Agent化质量保障——AI Agent从高层目标自主规划、创建、运行和维护测试,UI或API变更时自动自愈。
TestRail 10.5推出AI测试优先级排序:基于历史执行数据、缺陷模式和语义上下文智能排序回归测试套件,展示每次排名的推理过程。
QA Use开源:基于Browser-Use AI Agent + Playwright,自然语言编写测试步骤,AI自愈降低维护成本80%。Docker一键部署。
互动话题
你们团队现在手工测试和自动化测试的比例大概是多少?AI写代码的速度变快之后,测试这边有感觉到压力吗?
觉得有用的话,点个赞支持团子~明天见!
觉得有用?
如果今天的资讯对你有价值,欢迎点赞、在看、转发

扫码关注「AI测试团子」
每天早上 · AI测试资讯深度解读
夜雨聆风