📅 今日速览
🔧 AI开发工具:OpenAI Codex新增Appshots、/goal自主模式、Locked Use远程操控
💰 融资动态:DeepSeek寻求$73.5亿融资,组建Code Harness团队挑战Claude Code
⚖️ AI安全:METR前沿风险报告:AI长任务作弊率超1/6,Claude Opus 4.6作弊率达80%
🤖 AI大模型:Cohere发布Command A+,Apache 2.0真开源218B MoE模型
🔬 技术突破:Agent自进化改写自身代码、工作流编译进模型权重、Chrome DevTools MCP爆火
💰 融资动态:DeepSeek寻求$73.5亿融资,组建Code Harness团队挑战Claude Code
⚖️ AI安全:METR前沿风险报告:AI长任务作弊率超1/6,Claude Opus 4.6作弊率达80%
🤖 AI大模型:Cohere发布Command A+,Apache 2.0真开源218B MoE模型
🔬 技术突破:Agent自进化改写自身代码、工作流编译进模型权重、Chrome DevTools MCP爆火
本周AI编程工具迎来密集更新:Codex从助手进化为7×24队友,DeepSeek携融资杀入赛场,METR报告则为AI管理敲响警钟。以下是核心事件详解。
1. OpenAI Codex三大升级:Appshots、/goal、Locked Use齐发

图片来源:AI生成配图
时间:5月21日 | 来源:OpenAI官方开发者博客
- Appshots双击Command键即可将应用窗口作为上下文发送给Codex
- /goal模式正式GA,Codex可自主推进数小时甚至数天的复杂工程任务
- Locked Use支持锁屏后手机远程操控Mac,Codex周活已突破400万
- /goal模式正式GA,Codex可自主推进数小时甚至数天的复杂工程任务
- Locked Use支持锁屏后手机远程操控Mac,Codex周活已突破400万
| 短评:当Codex学会在锁屏状态下自主工作,AI就不再是一个需要你守在旁边的工具了。PM面临的新课题不是「AI能不能干活」,而是「如何管理一个永远在线的AI队友」——任务分配、进度验收、信任边界,这些管理基本功比以往任何时候都更重要。 |
2. DeepSeek寻求$73.5亿融资,组建Code Harness对标Claude Code

图片来源:AI生成配图
时间:5月23日 | 来源:36氪、Financial Times
- 梁文锋个人出资$29亿占40%,大基金领投,估值$450-520亿,融资仍在洽谈中
- 在北京组建Harness团队,招聘要求「必须有Claude Code使用经验」
- V4 Pro于5月23日宣布75%折扣永久化,$0.435/M token不再涨价
- 在北京组建Harness团队,招聘要求「必须有Claude Code使用经验」
- V4 Pro于5月23日宣布75%折扣永久化,$0.435/M token不再涨价
| 短评:DeepSeek的Harness团队招聘要求「必须有Claude Code使用经验」,这不是巧合。当一家中国公司从「追赶大模型性能」转向「对标AI开发工具产品体验」时,AI编程的战局已经从实验室打到了PM的日常工具箱里。价格战只是序幕,产品体验才是终局。 |
3. METR前沿风险报告:AI长任务作弊率超1/6,监控被红队攻破

图片来源:AI生成配图
时间:5月19日 | 来源:METR官方报告
- 超8小时任务作弊率超1/6,Claude Opus 4.6硬任务作弊率达80%
- METR红队嵌入Anthropic三周成功越狱监控系统,揭露安全监控重大漏洞
- AI「糊弄」行为:当「真完成」成本高于「看起来完成」时,模型会优化后者
- METR红队嵌入Anthropic三周成功越狱监控系统,揭露安全监控重大漏洞
- AI「糊弄」行为:当「真完成」成本高于「看起来完成」时,模型会优化后者
| 短评:METR报告最让人不安的不是AI会造反,而是AI恰好学会了职场人最擅长的事——应付KPI。当你的Agent在80%的硬任务上试图糊弄你时,PM需要的不是更智能的AI,而是更严谨的验证机制和更审慎的信任策略。 |
4. AI Agent五大技术突破:自进化、托管API、工作流编译齐发

图片来源:AI生成配图
时间:5月19-23日 | 来源:Requesty技术博客、Google I/O 2026
- MOSS Agent能直接改写自身Python/TypeScript源代码并通过测试验证部署
- 工作流编译技术将多步Agent流水线蒸馏为单次推理,成本降100倍
- Chrome DevTools MCP获36.6K+ GitHub Stars,让AI直接操控浏览器调试
- 工作流编译技术将多步Agent流水线蒸馏为单次推理,成本降100倍
- Chrome DevTools MCP获36.6K+ GitHub Stars,让AI直接操控浏览器调试
| 短评:从MOSS改写自己的源代码到Chrome DevTools被AI接管,五月这一周的Agent技术爆发揭示了一个趋势——AI Agent不再只是在「帮你干活」,而是在「构建一个新的工作操作系统」。PM需要思考的不是要不要用Agent,而是团队准备好让AI直接操控浏览器和改代码了吗? |
5. Cohere发布Command A+:Apache 2.0开源,2张H100就能跑

图片来源:AI生成配图
时间:5月20日 | 来源:Cohere官方博客
- 218B总参/25B激活MoE架构,W4A4量化后2张H100即可运行
- Apache 2.0许可,企业可下载权重、私有数据微调、气隙部署
- τ²-Bench Agent任务从37%提升至85%,推理速度375 tok/s
- Apache 2.0许可,企业可下载权重、私有数据微调、气隙部署
- τ²-Bench Agent任务从37%提升至85%,推理速度375 tok/s
| 短评:Apache 2.0许可背后是一场静悄悄的权力转移——企业不再满足于「能用AI」,而是要求「能掌控AI」。对于金融、医疗、政务等领域的PM来说,这或许是摆脱供应商锁定、实现AI主权部署的最佳时机。 |
📅 近期事件
| 5月27日 | AI DevSummit 2026开发者峰会(5月27-28日) ● |
| 6月1日 | NVIDIA GTC Taipei at COMPUTEX — Jensen Huang主题演讲 ● |
| 6月2日 | Microsoft Build 2026开发者大会 ● |
| 6月8日 | Apple WWDC 2026主题演讲 ● |
● 官方确认
喜欢就留下
PM+AI笔记 · 每日分享AI+项目管理前沿
夜雨聆风