入职蚂蚁金服Ai测试岗位，42k五险一金双休-夜雨聆风

本文最后更新于2025-12-17，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

入职蚂蚁金服Ai测试岗位，42k五险一金双休

9:30-11:00：AI模型质量日会 + 问题回溯
晨间线上服务监控复盘（关注核心指标：模型服务可用性、API调用错误率、响应延迟P99）
测试问题与用户反馈分析（从监控告警和反馈池中归纳Top 3问题类型，定位至数据、模型或工程环节）
行业测试方案同步（研读最新大模型评测论文，同步团队在幻觉检测、安全性测试等方面的可行方案）
✓ 本周拦截2个由训练数据污染导致的输出偏差问题
✓ 核心场景的模型服务稳定性达99.95%

11:00-13:00：大模型版本评测与验收
协同算法团队进行新版本模型评测（系统评估准确率、幻觉率、安全性及性能损耗）
A/B测试与灰度发布策略制定（设计多组实验，量化评估新模型在关键业务场景下的综合效果）
版本测试报告输出（汇总评测数据，给出是否满足上线标准的明确结论及风险提示）
关键产出：
“新版本在代码生成场景的准确率提升8%，但长文本幻觉率需持续监控”
“完成多轮对抗性测试，模型拒绝不当请求的成功率达99%”

🍜 午休 12:00-13:30：能量补充时刻

13:30-15:30：AI专项测试设计与攻坚
复杂场景测试用例设计（针对多轮对话、长上下文、思维链推理等场景设计测试方案与Prompt集）
工程效能测试评审（参与模型服务化、推理优化等方案评审，明确性能、成本等测试边界）
自动化测试脚本开发（开发用于日常回归的端到端测试流水线，覆盖主流用户交互路径）
✓ 完成针对200个边缘Case的对抗测试集构建
✓ 新压测方案可模拟千人并发，精准定位服务瓶颈

15:30-17:30：测试体系与基建建设
AI测试工具链探索（调研并接入1款开源大模型自动化评估框架，提升评测效率）
质量度量看板优化（新增“输出波动性”、“用户满意相关性”等AI特色质量指标）
数据质量检查与共建（协同数据团队，对最新训练数据采样并进行质量标注核查）
关键进展：
“初步构建RAG系统专属测试集，涵盖检索准确性、答案溯源性等维度”
“实现关键测试用例的自动化日报，问题发现效率提升50%”

17:30-18:30：本周复盘与规划
本周质量总结：
✓ 完成V1.2模型全量验收测试，共执行用例1520条，通过率99.7%
✓ 推动解决3个高优先级缺陷，包含1个潜在安全风险
下周核心任务：
“启动多模态（图像理解）模块的测试方案设计与数据准备”
“输出季度AI测试能力建设规划，重点关注自动化评测覆盖率”

#互联网大厂 #ai测试 #自动化测试 #软件测试面试 #软件测试 #互联网大厂实习 #人工智能就业

入职蚂蚁金服Ai测试岗位，42k五险一金双休

wang

猜你喜欢