AI写代码速度翻倍，测试这边该怎么办？

AI测试团子 · 2026-06-20

今天的精选聚焦测试人最该关心的两个数字：92%和40%。92%的团队还在手工跑用例，但40%的代码已经是AI写的。Workday刚推出了AI Agent的"上线前安检系统"，Eval-First AI指南教你怎么像测代码一样测AI——不懂AI也能看懂。

Workday发布Agent Passport：Agent上线前的独立安检

6月19日，Workday推出了Agent Passport——一个AI Agent上线前的独立测试和验证系统。它不只是跑几个测试用例，而是对标OWASP LLM Top 10、NIST AI RMF和MITRE ATLAS三大安全标准，对Agent进行提示注入（prompt injection）、越狱攻击（jailbreak）、系统提示提取（system prompt extraction）、数据泄漏和危险输出等全方位检测。

更关键的是架构设计：Cisco作为首个认证合作伙伴，用Cisco AI Defense进行独立验证。每个测试结果都经过加密签名，在不同厂商之间生成可比较、可审计的记录。这解决了企业Agent测试的一个核心痛点——不是没有安全测试工具，而是测试结果缺乏第三方可信度。

团子解读：Workday的方案本质上是在定义"Agent上线前的安检标准"。以前企业软件上线有渗透测试和合规审计，Agent上线也应该有，但行业一直缺这个标准。Agent Passport的三个关键词：独立验证（不是自测）、加密签名（不可篡改）、对标已知标准（OWASP/NIST/MITRE）——这可能是Agent安全测试从各自为战走向标准化的第一步。

Eval-First AI：把测试驱动开发用到AI产品上

6月19日，BotsCrew发布了一份AI产品评测指南"Eval-First AI: A Field Guide to Testing LLM Products"。核心论点简洁有力：如果产品里包含AI提示词，就必须有可重复的评测框架（eval framework），没有例外。

指南将传统软件开发的测试驱动开发（TDD）思想迁移到AI评测上：在修改提示词之前，先把失败案例加入评测数据集，修改后再确认分数回升。评测维度覆盖了grounding（事实基础）、guardrails（安全护栏）、intent recognition（意图识别）、routing（路由分发）和tool calls（工具调用），每个维度用召回率、精确率和F1分数量化。

团子解读：Eval-First的核心思想不是新技术，而是新纪律。大部分团队改AI提示词的方式是"改一改、试一试、感觉差不多就上线了"。Eval-First要求每次改动都有数据支撑。对测试人来说，这意味着一个新角色——AI评测工程师。职责不是写测试用例，而是建评测数据集、定义评分标准、追踪每次改动前后的分数变化。这个角色目前市场供给几乎为零。

92%仍手工测试，40%代码已AI生成——测试人的处境

SmartBear最新发布的AI软件质量差距报告（调查273位测试决策者）抛出了一组让人坐不住的数字：93%的团队已采用AI编码工具，40%生成至少41%的代码，但92%仍以手工测试为主，70%认为应用质量已经在下降。

这不是"未来趋势"，这是正在发生的事。AI写代码的速度每季度翻倍，但测试仍然是手工为主。解决思路不是"让AI也来测"那么简单——SmartBear提出了应用完整性（Application Integrity）的概念：不只看代码有没有bug，还要看运行中的应用是否可信、安全、可用。这需要从代码审查转向运行时监控。

团子解读：92%对40%的落差是测试人今年最该关注的数据。它不是危机——是测试价值被重新定义的机会。当代码大部分是AI写的，人工审查覆盖率必然下降，测试人的核心价值就从"找代码的bug"转向"判断系统能不能用"。后者AI做不了——它需要业务理解、风险评估和用户视角。- 三个建议：开始把至少30%的测试时间从手工执行转向评测设计；学一个Agent安全测试标准（从OWASP LLM Top 10起步）；关注运行时监控（application monitoring）多于代码审查。

快讯

SmartBear质量差距报告：93%采用AI编码，92%仍手工测试，70%称质量已下降。推出BearQ Agent QA系统，聚焦运行时应用完整性而非代码审查。

Ministry of Testing"Leading with AI"活动：6月19日半日专题，覆盖Agent测试、高级提示工程、AI作为"可信测试伙伴"等议题。Agentic Testing被定义为"自主AI Agent持续探索、生成、执行测试并报告结果"。

Katalon定义Agentic QA：发布完整指南阐释Agent化质量保障——AI Agent从高层目标自主规划、创建、运行和维护测试，UI或API变更时自动自愈。

TestRail 10.5推出AI测试优先级排序：基于历史执行数据、缺陷模式和语义上下文智能排序回归测试套件，展示每次排名的推理过程。

QA Use开源：基于Browser-Use AI Agent + Playwright，自然语言编写测试步骤，AI自愈降低维护成本80%。Docker一键部署。

互动话题

你们团队现在手工测试和自动化测试的比例大概是多少？AI写代码的速度变快之后，测试这边有感觉到压力吗？

觉得有用的话，点个赞支持团子～明天见！

觉得有用？

如果今天的资讯对你有价值，欢迎点赞、在看、转发

扫码关注「AI测试团子」

每天早上 · AI测试资讯深度解读