每天更新海外 AI 视频和一手资讯,优先整理对 AI 产品经理有参考价值的访谈、演讲和产品动态。
01 今日产品判断
① Happy Robot:Agent 永远不该看到全部商业上下文
Happy Robot 在 a16z 的访谈里,讲了他们怎么把企业语音 Agent 做进真实货运业务。这里最值得 AI PM 关注的,不是语音模型本身,而是他们处理敏感商业信息的方式:Agent 不需要知道全部上下文,尤其不该知道价格上限。
他们用 Proxy Server 把确定性业务逻辑和概率模型分开。比如货运谈判里,Agent 看不到 max buy,只会收到“是否允许继续要价”这类结果。它可以像人类销售一样说“我去确认一下”,但真正的价格边界永远不暴露给模型。

视频链接:https://www.youtube.com/watch?v=APHkp5xI78Y
•产品假设: 很多 Agent 产品默认把更多上下文塞给模型,以为模型知道得越多,决策就越好。但在价格、权限、合规、审批这类场景里,更多上下文反而可能变成风险。产品要设计的是“模型该知道什么”,不是“模型最多能装下什么”。
•权限边界: Proxy Server 的价值,是让模型只看到被业务规则处理后的结果,而不是直接接触原始敏感信息。这和常见 tool calling 不一样:不是让模型决定怎么调工具,而是让系统先决定模型能看到什么、不能看到什么。
•流程设计: 这类 Agent 不应该被设计成“一次性自动完成任务”。更合理的是让它在关键节点停下来,向 Proxy Server 或人工审批请求判断,然后再继续执行。用户看到的是自然对话,后台其实是一套受控的业务流程。
•场景选择: Happy Robot 先从谈判、追踪这类高频但边界相对清晰的任务切入,再扩展到更多 Agent。这比一开始就做“万能企业助理”更现实。PM 要先找流程稳定、失败可兜底、ROI 清楚的场景。
•建议带着这个问题看原文: 把你产品里的一个 Agent 工作流画出来,标清哪些信息可以进模型上下文,哪些只能由系统判断,哪些必须永远对模型黑盒。这个边界如果画不清楚,产品就还不适合放权给 Agent。
② Lovable 的 GPT-5.5 实测:AI Coding 的重点正在从生成代码转向理解需求
Lovable 团队这条视频,表面上是在测 GPT-5.5 的 coding 表现,但更值得 AI PM 关注的是它背后的产品变化:AI Coding 产品的重点,正在从“能不能生成代码”转向“能不能先理解需求,再规划执行路径”。
视频里提到,在复杂构建任务中,GPT-5.5 的意图理解提升 31%,上下文遗忘下降 22%。先不管这个数字是不是能迁移到所有场景,它至少说明一件事:AI Coding 的评测,不能只看代码能不能跑,还要看模型有没有真正理解用户要做什么。

视频链接:https://www.youtube.com/watch?v=ZrEc46wUIPU
•产品假设: 过去很多 AI Coding 产品把“输出代码”当核心交付物。但对真实用户来说,难点往往不是缺一段代码,而是不知道需求该怎么拆、哪些步骤会影响后续实现、哪里需要提前确认。
•产品入口: 如果模型 planning 能力变强,产品入口就不应该只是一个 prompt 框。更好的流程可能是:用户描述需求,系统先给出执行计划,用户确认关键假设,再进入生成和修改。这会比直接吐代码更容易建立信任。
•Context 管理: “上下文遗忘下降”对产品设计很关键。跨文件、跨模块、跨多轮修改时,用户最怕的是模型忘掉前面已经定过的约束。AI Coding 产品需要明确保存需求、假设、计划和已完成修改,而不是只依赖聊天上下文。
•Eval 基准: 真实复杂构建任务,比 HumanEval 这类标准题更接近产品场景。AI PM 可以把自己产品里的高频任务整理成 golden dataset,评估模型是否能理解需求、拆出步骤、维持上下文,而不是只看 pass rate。
•建议带着这个问题看原文: 找一个你团队真实做过的小功能,让不同模型先写计划再写代码。对比它们的需求澄清、计划质量、返工次数和最终可用性,这比看通用榜单更能指导选型。
02 值得扫一眼
1. NVIDIA 今日发布 Vera CPU,主打端侧 Agent 推理加速,适合评估端侧推理架构或设计手机、IoT 端 Agent 产品的 PM 扫一眼。
链接:https://www.youtube.com/watch?v=vLFrBembjsk
2. Replit 今日公开并行 Agent 的 task board 设计,适合需要设计多 Agent 协作 workflow 或任务调度的 PM 扫一眼。
链接:https://www.youtube.com/watch?v=AFSFRRtm1Zw
3. Pruna 今日发布研究,模型评测成本从 5000 美元降至 265 美元,周期从 20 天压缩至 7 小时,适合搭建 Eval pipeline 或评估模型成本的 PM 扫一眼。
链接:https://www.youtube.com/watch?v=hqHC6Z_lXyo
4. AI Token Shortage 今日讨论从 seat pricing 到 token economy 的商业模型迁移,适合关注产品定价模型与 AI 成本结构的 PM 扫一眼。
链接:https://www.youtube.com/watch?v=ex6abzvzaIo
夜雨聆风