AI 构建者日报 | 6月2日
2026年6月2日
OpenAI Robotics is hiring, looking for exceptional full-stack hardware, ops, systems, and ML engineers to help us program and manufacture robots that are useful for society. AI should be able to help people in the physical world. OpenAI Robotics 正在招人,寻找全栈硬件、运维、系统和 ML 工程师,帮助我们编程和制造对社会有用的机器人。AI 应该能够在物理世界中帮助人类。 In the short term, we are focused on robots to support skilled workers to build our future infrastructure; in the long term, we imagine everyone having a personal robot doing anything they need. 短期我们专注机器人协助技术工人建设基础设施;长期我们想象每个人都有一个能做任何事的个人机器人。 11049 赞、840 转发的招聘帖,不是普通的招聘帖。Altman 借此首次以「OpenAI Robotics」的品牌宣布——过去一年由 Aditya Ramesh(@model_mechanic)领导的世界模拟研究项目,已经正式进化为一个独立的机器人部门。这种命名本身就值得关注:从「研究项目」到「商业部门」的组织跃迁。 技术路径上,Altman 强调「软硬件协同设计」——不是先造硬件再让 AI 适配,也不是先训模型再找硬件跑。而是从第一天起就让机器人和 ML 研究相互塑造。这比很多机器人公司「先有了机械臂再去训练模型」的思路激进得多。 同一天,Altman 还发布了关于生物防御的倡议——「帮助世界在生物防御领域抢占先机」。这两条推文放在一起看,OpenAI 的战略版图正在从软件世界向物理世界延伸:机器人控制物理空间,生物防御守护生命底线。 |
You should want to control and host your own memory. It's the one thing that you should be able to take to any platform. Watch for this to be a defining battle in the new browser war: the AI harness wars of 2027. 你应该想要掌控和托管自己的记忆。这是你应该能够带去任何平台的东西。留心这场即将定义新浏览器战争的关键战役:2027 年的 AI 马具战争。 Where the AI harness wars are going... someone else's harness is just going to be you sharecropping someone else's AI ecosystem. AI 马具战争的方向……别人的马具只会让你在别人的 AI 生态里做佃农。 1423 赞——Garry Tan 用「AI Harness Wars」这个词精准命中了即将到来的平台战争。他引用的类比很尖锐:平台需要保持开放,获取自己的数据不应该需要大量工作。因为 AI 时代真正的战场不是模型之争,而是「谁控制你的记忆」之争。 Tan 用了一个很重的词——sharecropping(佃农制)。在别人 AI 生态里不掌控记忆,就像在别人的土地上耕种,丰收的大部分归地主。这不是比喻,而是一个即将发生的经济结构问题。他的核心论点:个人记忆应该是跨平台可迁移的资产,而不是被锁定在某个 AI 助手的封闭花园里。 「2027 年的 AI 马具战争」这个预测本身就很值得玩味。为什么是 2027?因为到那时,你今天选择在哪个平台上积累的记忆和 Agent 习惯,将决定你能跑多快。转换成本一旦形成,后来者几乎不可能追上。 |
Unclear if a durable trend, but CEOs and CTOs are back to coding with a fury, thanks to coding agents. I have public company CEOs sliding into my DMs (and "InMail") telling me about falling in love with shipping software again thanks to Claude Code and Vercel. 不确定这是否是一个持久的趋势,但 CEO 和 CTO 们正在以惊人的热情重新开始写代码,多亏了编程 Agent。上市公司 CEO 正在私信我,告诉我他们因为 Claude Code 和 Vercel 重新爱上了交付软件。 Coding agents are the ultimate PLG-fication of the enterprise. Bad, legacy software can't hide anymore. The stack that works is self-evident to the entire organization, from intern to CEO. 编程 Agent 是企业级 PLG 的终极形态。糟糕的遗留软件再也藏不住了。什么样的技术栈真正好用,从实习生到 CEO,整个组织都一目了然。 1226 赞的热度说明这不是个别现象。Rauch 描绘了一个有趣的信号:那些曾经负责审批采购、看仪表盘的 C-level 管理者,正在亲自下场写代码。这不是「工作狂 CEO」的回归,而是编程 Agent 降低了准入门槛后,决策层重新获得了对产品手感的第一手体验。 「Dream accounts」这个概念很有意思——过去这些大公司 C-suite 要到项目后期才理解基础设施的价值,现在他们自己上手用 Claude Code + Vercel 部署东西,几分钟就懂了。这对 SaaS 销售模式的影响是根本性的:不再是自上而下的审批流程,而是自下而上(甚至从 CEO 开始)的产品驱动增长。当 CEO 本人就是你的 power user,销售周期会短到什么程度? 最关键的一句可能是「Bad, legacy software can't hide anymore」。过去遗留软件靠信息不对称续命——采购不知道有更好的选择,或者切换成本高到无法承受。现在 CEO 自己写个 Agent 半小时就搭出替代方案,你不进化,客户自己动手。 |
Been teaching codex to be my QA assistant. For every commit it creates a user-test scenario and uses webVNC (crabbox), computer/browser use (peekaboo/mcporter) to test OpenClaw like a user/QA person would. This runs in the background and opens PRs with fixes. 我一直在教 Codex 当我的 QA 助手。每次提交后它创建用户测试场景,用 webVNC(crabbox)、computer/browser use(peekaboo/mcporter)像真人 QA 一样测试 OpenClaw。它在后台运行并自动提交带修复的 PR。 Haven't seen codex writing ad-hoc codemods before, but it just did for a bigger TypeScript migration. Impressed. 从没见过 Codex 写即席 codemod,但它刚刚为一次大型 TypeScript 迁移做到了。令人印象深刻。 The idea of OpenClaw is always that it should be yours. It's modular and lean, only add what you need. Fewer skills, fewer tools = your agent can work more efficiently. OpenClaw 的理念始终是它应该属于你。模块化、精简,只添加你需要的。技能越少、工具越少 = Agent 工作效率越高。 Steinberger 今天的三条推文组合在一起,构成了一个完整的 Agent 工程进阶叙事。最亮眼的是第一条——1008 赞的 QA 自动化系统。这不是一个简单的「让 AI 跑测试」,而是一个多层级的端到端 CI 改造:每次提交 → Codex 自动生成用户测试场景 → 通过 webVNC 远程操作浏览器 → 像真人 QA 一样交互 → 发现问题 → 自动提交修复 PR。 这里的关键基础设施洞见:Agent 不再是「代码写完就走」的 CLI 工具,而是嵌入了整个 CI/CD 流水线。Crabbox(webVNC 控制桌面)、peekaboo/mcporter(浏览器自动化)这些组件构成了 Agent 的「手」和「眼」。把这几样东西串联成一条生产线,才是 Agent 工程真正的复杂度所在。 第三条 428 赞的推文则是一个哲学表达——在大家都在往 Agent 里塞更多 Skill 和工具的时候,Steinberger 反其道而行之:更少就是更多。这跟他的 QA 系统形成有趣的张力:自动化系统很复杂,但 Agent 本身的配置应该极简。 |
This is effectively the #1 problem for AI agents in the enterprise. As we go from agentic coding to a world of knowledge work agents, the context problem becomes much more acute. 这实际上是 AI Agent 在企业中的头号问题。当我们从 Agent 编程转向知识工作 Agent 的世界时,上下文问题会变得更加严峻。 Decisions, processes, and workflows often live in people's heads and tribal knowledge that need to get turned into unstructured data for agents. 决策、流程和工作流往往存在于人们的头脑和部落知识中,需要被转化为 Agent 可以使用的非结构化数据。 Levie 用 479 赞的引用推文点出了 AI 落地最大的隐形瓶颈。编程 Agent 之所以效果好,因为代码本身就是结构化的上下文——文件系统、git 历史、函数签名。但一旦进入知识工作的领域,上下文就散落在几十个遗留系统、权限边界、以及「只有老王知道」的部落知识中。 他的诊断很精准:「很多公司还没有捕获和数字化那些 Agent 需要用到的关键上下文。」这不是技术问题,是组织问题。决策在邮件里、流程在 Slack 里、关键判断在某个人的脑子里——这些东西 Agent 根本看不到。解决它的方式不是更好的模型,而是把隐性知识变成 Agent 可消费的数据。 Levie 由此引出两个机会:一是应用层 AI 公司的巨大杠杆——谁能专门为 Agent 提供精准的领域知识和上下文,谁就掌握了入口。二是 FDE(Forward Deployed Engineer)和新型系统集成商的黄金时代。这跟他过去几周反复强调的「FDE 将成最抢手职业」形成完整闭环。 |
If your Knowledge Work Agents startup can't beat pewdiepie you might as well pack up and go home at this point, his is the benchmark for what you can DIY. 如果你的知识工作 Agent 创业公司打不过 PewDiePie,那不如趁早收工回家——他的项目就是你 DIY 能做成什么样的基准线。 Every evals/analytics startup is going through a onetime generational upgrade into a continual learning platform in 2026. Many will fail but as always the tasteful ones win. 2026 年,每一家 evals/analytics 创业公司都在经历一次性的代际升级,转型为持续学习平台。很多会失败,但一如既往——有品味的会赢。 Swyx 提供了一个行业视角的广角镜头。137 赞的那条指出一个令人不安的事实:PewDiePie——一个 YouTuber,而非专业程序员——用 vibe coding 构建了一个完整的个人 AI 生产力套件,包含邮件、文档和日历功能,一天内获得 10000+ GitHub stars,登顶 HN。这不仅是「素人也能写代码」的例证,更是一个对 AI 创业公司的压力测试:如果个人用 AI 工具一天就能做出比你有全职团队的产品更好的东西,那你的护城河在哪里? 245 赞那条则是一个更宏大的趋势判断:所有评估和分析创业公司正在「一次性的代际升级」为持续学习平台。什么叫持续学习平台?就是从「跑一次 benchmark 出个报告」变成「持续根据模型的实际表现动态调整」。这跟 Garry Tan 的「控制自己的记忆」形成了呼应——持续学习的前提是你能持续积累属于自己的数据资产。 |
🎙 Yann Dubois:为什么 AI 进步突然感觉真实了The MAD Podcast with Matt Turck You need to reach this level of reliability to really make any of these AI tools very useful, and I think we just crossed that probably December last year, at least at OpenAI. Now we can trust these models to do a lot of the work that we are doing. 你需要达到这个可靠性水平,才能真正让这些 AI 工具变得非常有用。我认为我们在去年 12 月左右才跨过了这个门槛,至少在 OpenAI 是这样。现在我们可以信任这些模型来完成我们正在做的很多工作。 The last few months have been pretty wild. We moved from like competitions to usefulness to users and that's what we are feeling right now. I think most of the time the Bionic is the last mile. 过去几个月相当疯狂。我们从竞赛阶段走到了可用性阶段,再到用户阶段——这就是我们现在感受到的。我认为大多数时候,仿生(最后一公里)才是关键。 Yann Dubois 是 OpenAI 后训练前沿团队的共同负责人。他参与构建了 GPT 5.5 以及此前的 o3 和 GPT-5 Thinking。加入 OpenAI 前,他在斯坦福合著了 Stanford Alpaca——那个开启了整个后训练研究社区的开山项目。这意味着他对「模型怎么变聪明」这件事的理解是从学术到产品的全线贯通。 Dubois 提供了一个非常精确的时间分界线:「我们大概在去年 12 月跨过了可靠性门槛。」不是「最近」,不是「进步很快」——是确切的 December 2025。在此之前,模型好到能赢比赛但不能托付;在此之后,模型可靠到可以分配真正的工作。这个分界线对一个每天看 benchmark 的人来说价值极大。 他还描述了 AI 进步的三阶段:Competitions → Usefulness → Users。比赛阶段是赢 benchmark,可用性阶段是模型能做事,用户阶段是普通人开始真正依赖它们。他强调「The Bionic is the last mile」——不论模型多强,最后那一公里(产品化、UX、行业适配)永远有巨大的价值空间。这对做应用层 AI 的人是个重要的信号:不要因为模型变强就焦虑,最后一公里的空间只会更大。 作为后训练团队的领导者,Dubois 特别提到强化学习正在从「数学和编程比赛」迁移到「混乱的真实世界工作」——这是 GPT 5.5 的核心技术突破之一。同时他指出,ChatGPT 发布三年后,持续学习(continual learning)仍然是 AI 最大的未解决问题之一。 |
AI 构建者日报 · 每日追踪一线 AI 构建者的真实声音
夜雨聆风




