乐于分享
好东西不私藏

入职蚂蚁金服Ai测试岗位,42k五险一金双休

入职蚂蚁金服Ai测试岗位,42k五险一金双休

入职蚂蚁金服Ai测试岗位,42k五险一金双休

入职蚂蚁金服Ai测试岗位,42k五险一金双休

入职蚂蚁金服Ai测试岗位,42k五险一金双休

9:30-11:00:AI模型质量日会 + 问题回溯
晨间线上服务监控复盘(关注核心指标:模型服务可用性、API调用错误率、响应延迟P99)
测试问题与用户反馈分析(从监控告警和反馈池中归纳Top 3问题类型,定位至数据、模型或工程环节)
行业测试方案同步(研读最新大模型评测论文,同步团队在幻觉检测、安全性测试等方面的可行方案)
✓ 本周拦截2个由训练数据污染导致的输出偏差问题
✓ 核心场景的模型服务稳定性达99.95%

11:00-13:00:大模型版本评测与验收
协同算法团队进行新版本模型评测(系统评估准确率、幻觉率、安全性及性能损耗)
A/B测试与灰度发布策略制定(设计多组实验,量化评估新模型在关键业务场景下的综合效果)
版本测试报告输出(汇总评测数据,给出是否满足上线标准的明确结论及风险提示)
关键产出:
“新版本在代码生成场景的准确率提升8%,但长文本幻觉率需持续监控”
“完成多轮对抗性测试,模型拒绝不当请求的成功率达99%”

🍜 午休 12:00-13:30:能量补充时刻

13:30-15:30:AI专项测试设计与攻坚
复杂场景测试用例设计(针对多轮对话、长上下文、思维链推理等场景设计测试方案与Prompt集)
工程效能测试评审(参与模型服务化、推理优化等方案评审,明确性能、成本等测试边界)
自动化测试脚本开发(开发用于日常回归的端到端测试流水线,覆盖主流用户交互路径)
✓ 完成针对200个边缘Case的对抗测试集构建
✓ 新压测方案可模拟千人并发,精准定位服务瓶颈

15:30-17:30:测试体系与基建建设
AI测试工具链探索(调研并接入1款开源大模型自动化评估框架,提升评测效率)
质量度量看板优化(新增“输出波动性”、“用户满意相关性”等AI特色质量指标)
数据质量检查与共建(协同数据团队,对最新训练数据采样并进行质量标注核查)
关键进展:
“初步构建RAG系统专属测试集,涵盖检索准确性、答案溯源性等维度”
“实现关键测试用例的自动化日报,问题发现效率提升50%”

17:30-18:30:本周复盘与规划
本周质量总结:
✓ 完成V1.2模型全量验收测试,共执行用例1520条,通过率99.7%
✓ 推动解决3个高优先级缺陷,包含1个潜在安全风险
下周核心任务:
“启动多模态(图像理解)模块的测试方案设计与数据准备”
“输出季度AI测试能力建设规划,重点关注自动化评测覆盖率”

#互联网大厂 #ai测试 #自动化测试 #软件测试面试 #软件测试 #互联网大厂实习 #人工智能就业

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 入职蚂蚁金服Ai测试岗位,42k五险一金双休
×
订阅图标按钮