AI 构建者日报 | 6月9日
追踪全球 AI 构建者一手洞见 · 中文深度解读
"Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents." 「月度提醒:你不应该再手动对编程 Agent 发指令了。你应该设计循环(loops),让循环去驱动你的 Agent。」— Peter Steinberger "interesting recursive loop here maybe" 「这里似乎出现了一个有趣的递归循环。」— Sam Altman 本周最引人注目的 AI 构建者对话,恰好是一个关于"loop"本身的 loop。Steinberger 以 13,734 赞的爆发式传播再次祭出他的经典洞见——手动给 Agent 下指令已经是旧范式了,真正的生产力跃迁在于设计自动化循环,让 Agent 自己驱动自己。这条推文本身就在践行它宣扬的理念:Steinberger 没有"prompt"任何人来转发,他只是投下了一个观点,然后社区的自传播环路就把 Sam Altman 卷了进来。Altman 的三字回应——"interesting recursive loop here maybe"——既是对内容的认可,也是对形式的点题:这位 OpenAI 的 CEO 意识到自己参与的这个对话,恰好是 Steinberger 所说的那种自指涉循环。当"设计 loop"成为新的基础技能,Agent 工程的下一阶段将不再是写 prompt 的艺术,而是设计系统反馈回路的工程学。 |
"This is what the market got wrong about AI eating enterprise software... The plurality of costs in most enterprise software companies is actually on GTM... AI hasn't reduced the need for that, and in many cases requires it even more now." 「市场对"AI 吃掉企业软件"的判断错在这里:企业软件公司的大部分成本花在销售和渠道上(GTM),而不是软件开发本身。AI 没有减少这部分需求,反而在许多情况下让购买方的决策环境更加复杂,使 GTM 变得更加关键。」 "Use-cases have to stratify in the next year or two between model families. We'll see a split between frontier intelligence for high end tasks, and much cheaper models for high volume workloads." 「未来一两年内,用例必须在模型家族间进行分层:前沿智能处理高端任务,低价模型承担高容量工作负载。能够高效将工作负载路由到正确模型的那一层,将变得越来越有价值——这成为 AI Agent 领域新的硬问题。」 "Box now has a markdown editor on the web. Full CLI support. Commenting. Full version history. Box Drive also lets you connect to any desktop client as a mounted drive." 「Box 现在拥有 Web 端 Markdown 编辑器、完整 CLI 支持、评论和版本历史。Box Drive 还支持以挂载磁盘的方式连接到任何桌面客户端,让你在 Claude Cowork、Codex、Obsidian、Cursor 等工具中直接操作 Box 文件。」 Levie 本周三条推文构成一幅完整的企业 AI 落地地图。首先,他打破了"AI 将消灭企业软件公司"的流行叙事——当软件开发成本因 AI 急剧下降时,真正的瓶颈从"能不能建"转移到了"能不能卖出去和交付落地",GTM 成本反而上升。其次,在模型层面,他预判了即将到来的模型分层:前沿模型和低价模型各自聚焦不同任务类型,而"模型路由层"——能智能判断哪个模型最适合当前任务并在成本和效果间取得最优平衡——将成为 Agent 基础设施中最有价值的组件。最后,Box 自己也在加速变成 Agent 原生平台——Markdown 编辑器、CLI、挂载磁盘,每一项都在降低 Agent 访问企业内容的摩擦。三条线汇聚成一个信号:企业 AI 的下一个战场不在模型,在分发和集成。 |
"Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomously for hours/days..." 「多项基准表明,Opus 是长时间运行任务的最佳模型。以下五个技巧帮助你让 Opus 连续自治数小时甚至数天:① 使用自动权限模式(auto mode),让 Claude 无需等待人工批准;② 使用动态工作流(dynamic workflows),让 Claude 编排数百/数千个 Agent 协同完成任务;③ 使用 /goal 或 /loop 命令,推动 Claude 持续执行直至完成;④ 在云端运行 Claude Code,这样你可以合上笔记本(桌面端/移动端 App 是最简单的方式);⑤ 确保 Claude 有端到端自验证的能力——Chrome 浏览器扩展用于 Web 验证、iOS/Android 模拟器 MCP 用于移动端验证、启动完整 Web 服务器或服务进行后端验证。」 Cherny 的这五条建议(1,865 赞)构成了 Agent 自治运行的实用手册。最值得关注的是第二条和第五条:动态工作流意味着单个 Claude Code 实例可以像工头一样调动子 Agent 集群,而端到端自验证能力则解决了 Agent 长期运行中最致命的漂移问题——Agent 跑得越久,越容易偏离目标,没有自验证就无法自治。结合 Steinberger 的"设计 loop"观点,Cherny 实际上给出了让 loop 真正跑起来的工程细节:权限自动化(不会卡在审批环节)、任务持续推动(/goal + /loop 指令)、云托管(解除本地资源约束)、自验证(闭环反馈)。五条建议组合在一起,描述的正是"Agent 作为长时间运行的自主进程"这一新范式。 |
"Educating people on how to use the AI tools has become a serious bottleneck." 「教会人们如何使用 AI 工具,已经成为一个严重的瓶颈。」 "GBrain v0.42.30 can now give you a detailed summary of how your thinking has changed over time." 「GBrain v0.42.30 现在可以为你生成一份详细的总结,展示你的思维方式如何随时间变化。」 Tan 的两条推文捕捉了 AI 工具扩散中的两个关键痛点。第一个是"教育瓶颈"(543 赞)——AI 工具能力飞跃,但普通人学习的曲线没有同步陡峭化。这不仅是企业培训的问题,更是一个产品设计问题:如果工具强但没人会用,那工具的价值就被锁死了。第二个是 GBrain 的新功能——思维变化追踪——透露了一个更深层的方向:个人 AI 不仅应该帮你做事,还应该帮你理解你自己的思维演化。当你的 AI 助手能告诉你"三个月前你对某个问题的看法是什么,现在又变成了什么",它就从工具变成了认知伙伴。 |
"Vercel AI Gateway recovers on average over 1T tokens a month. Much like Stripe recovers revenue with smart retries on failed payments. And we do it with zero markup over the labs." 「Vercel AI Gateway 平均每月恢复超过 1 万亿 token。就像 Stripe 通过失败支付的智能重试来恢复收入一样。我们在模型实验室价格之上没有任何加价,同时提供冗余、零数据留存、可观测性、用量 API 和额度控制。」 每月 1 万亿 token 的恢复量——这个数字揭示了 Agent 生态中被忽略的基础设施层价值。当数千个 Agent 并行运行时,模型调用失败的累积损耗是惊人的。Rauch 用 Stripe 的类比精准点出了 Vercel 的定位:它不是模型生产商,而是模型调用的"支付处理层"——通过智能重试、冗余路由和零数据留存,在模型实验室和终端 Agent 之间构建可靠的调用管道。零加价策略则表明,Vercel 不是靠转售模型赚钱,而是靠让整个 Agent 生态更流畅运转来锁定平台地位。 |
"A common misconception is that training data is low skill, grunt work... The data required to advance the model frontier is the opposite. Labs need training data for high-economic-value tasks. And most of these tasks outside of SWE have little documentation — it is complex, domain-specific knowledge built over years, spanning legacy tools that don't talk to each other. That's why we have SWE agents and not knowledge work agents yet." 「一个普遍的误解是:训练数据工作是低技能的体力活。恰恰相反——推动模型前沿所需要的训练数据,恰恰是针对高经济价值任务的。而这些任务(软件工程之外)几乎没有文档记录——它们是积累了多年的复杂领域知识,横跨彼此不互通的遗留工具。这就是为什么我们现在有编程 Agent,还没有知识工作 Agent。」 Guru 以 Gemini 前产品负责人的视角,揭示了 AI 行业中一个被严重低估的真相。训练数据不是"灌数据"——它是将人类积累了数十年的隐性领域知识进行结构化提取的过程。编程 Agent 之所以先于知识工作 Agent 诞生,不是因为编程更难,恰恰相反——是因为代码天然就是结构化的,而企业中的知识工作(合规审查、供应链谈判、医疗诊断辅助)的"数据"散落在邮件、会议记录、Excel 表格和彼此不互通的遗留系统中。Guru 指出 Mercor 这类公司在做的正是这一高技能工作——桥接非结构化的人类知识和模型可消费的训练数据。这个洞察解释了一个关键问题:为什么 Agent 的落地速度在不同行业差异如此巨大。 |
"I have had the chance to go through two IPOs (Meta and Dropbox). Fabulous wealth tends to amplify deeper desires, not create new ones... For a lot of folks, it is a chance to do even crazier and wackier stuff. Start new things. Fund new things. Keep the crazy loop of Silicon Valley going." 「我经历了两次 IPO(Meta 和 Dropbox)。巨大的财富倾向于放大深层的欲望,而非创造新的欲望。对很多人来说,这是一次做更加疯狂和古怪事情的机会。开启新事业,资助新事业,让硅谷的疯狂循环持续运转下去。」 Agarwal 这段关于 IPO 财富的反思(385 赞),在 AI 构建者群体中引发了不同层次的共鸣。表层是对"一夜暴富就去海滩躺平"这一流行叙事的纠正——经历过两次 IPO 的他观察到,财富更多是让一个人原本就有的驱动力放大,而不是凭空产生躺平的欲望。但更深层的含义与本周的"loop"主题形成了微妙的呼应:硅谷本身的运作就是一个自循环——成功退出产生财富,财富重新投入更疯狂的项目,更疯狂的项目吸引更多人才。这是硅谷版本的"设计 loop"——不是代码层面的自动化循环,而是人、资本和野心之间的正反馈回路。在 AI 正在重塑一切的时代,这个回路的速度正在加快。 |
"The vibe shift from tokenmaxxing and token anxiety to tokenoptimizing in just a few weeks is wild. I still believe companies should give copious amounts of token budget to employees to stay at the frontier." 「从 token 焦虑(tokenmaxxing)到 token 优化(tokenoptimizing)的氛围转变,仅用了几周时间,这太疯狂了。我仍然认为公司应该给员工充足的 token 预算,让他们保持在技术前沿并探索所有边界——否则太容易退回到'按老方法做事'。」 Kothari 捕捉到了一个正在发生的叙事转折。几周前,行业还在担心 token 成本爆炸(tokenmaxxing),如今风向已转为"如何聪明地优化 token 使用"(tokenoptimizing)。这个转变背后的推动力正是 Aaron Levie 等人讨论的模型分层——当低价模型可以处理大批量简单任务时,token 焦虑自然缓解。但 Kothari 的"逆势"观点很有价值:即使在优化时代,企业仍需要给员工充足的 token 预算去探索前沿。因为"降低成本"和"保持探索"之间存在天然张力,而过度优化会让团队失去对新能力的感知。这个提醒恰到好处——在模型路由和 token 优化成为新共识的当下,别让优化杀死了实验。 |
🎙MAD PodcastMatt Turck × Aaron Levie | 企业 AI 2026 现状 "The breakthroughs keep happening faster than the customer can implement any kind of standard architecture. Those breakthroughs oftentimes make obsolete the last thing you implemented. It's this really bittersweet thing — the technology is getting so advanced that it makes obsolete the prior thing, which actually means the rollout takes longer." 「技术突破的速度持续超过客户实施标准架构的速度。那些突破往往使你刚刚部署的系统变得过时。这是一种苦涩的甜蜜——技术太先进以至于淘汰了你刚部署的东西,结果就是推广速度反而更慢。」 在这期 MAD Podcast 的深度对话中,Aaron Levie 以 Box CEO 的视角揭示了企业 AI 落地的核心悖论:技术进步越快,企业部署越慢。这不是技术问题,而是组织问题——当每个新模型都让上一次架构决策显得过时,CIO 们的理性选择不是加速追赶,而是等待尘埃落定。Levie 观察到一个有趣的转折:CIO 群体比外界想象的更乐观,因为他们已经在工程团队中看到了实打实的生产力提升(Claude Code、Codex、Cursor 的使用数据),问题在于如何将这份乐观从工程部门扩散到整个组织。从 Chat 到 Agent 的跳跃正在发生——这不仅仅是技术升级,而是从"人类发问-AI回答"到"AI自主执行任务"的范式转换。Levie 将当前的 Agent 落地状态定义为"第一天"。 |
AI 构建者日报 · 每日精选全球 AI 构建者一手洞见
夜雨聆风







