AI 构建者日报 | 6月6日
追踪 AI 领域前沿构建者的每日动态
Over 80% of all code merged into our codebase is now written by Claude. It's been months since many researchers at Anthropic hand-wrote code. The typical Anthropic engineer ships 8x as much code as they did in 2024. On the most open-ended engineering tasks, Claude's success rate jumped from ~26% to 76% in 6 months. When research sessions went off-track, Claude proposed a better next step than the human took 64% of the time. Anthropic 内部数据首次公开:超过 80% 的合并代码由 Claude 撰写,许多研究员已经几个月没有手写代码了。典型工程师的代码产出是 2024 年的 8 倍。在最开放式工程任务中,Claude 成功率从 26% 跃升至 76%。当研究偏离轨道时,Claude 在 64% 的情况下提出了比人类更好的下一步方案。 这组数据的震撼之处不在于 80% 这个数字本身,而在于 8 倍的工程师产出跃升和 64% 的「比人类更优」决策率。Alex Albert 特别强调「我们还没有进入递归式自我改进阶段,但它可能比大多数人预期的更早到来」。Anthropic 正在用自己的产品吃掉自己的开发管线——这不是营销话术,是内部数据。如果你把这三组指标放在一起看——代码占比、产出倍数、智能决策率——你会发现 Anthropic 正在暗中逼近一个临界点:当模型不仅能写代码,还能比人类更准确地判断研究方向时,「自主 AI 研究」就不再是科幻。 |
big upgrade to chatgpt memory rolling out today! ChatGPT 记忆系统迎来重大升级,即日推送。 build and publish web apps with chatgpt! i really wish i had this when i was a kid, but i do miss hypercard. 用 ChatGPT 构建并发布 Web 应用!真希望我小时候就有这个,但我确实怀念 HyperCard。 Altman 以一贯的极简风格抛出了两枚重磅更新。记忆系统升级——这在 Agent 时代意味着 Claude 不再是从零开始的对话工具,而是具备了跨会话持续学习的基础设施。而「在 ChatGPT 中构建并发布 Web 应用」则是将 AI 编程彻底拉出 IDE、嵌入消费级界面。Altman 罕见地提及了 HyperCard——Apple 在 80 年代推出的「让每个人都能编程」的工具,这可能是 Sam 对「AI 时代 HyperCard」最清晰的愿景表述。两次更新加起来,OpenAI 正在把 ChatGPT 从一个「问答盒子」变成「个人计算平台」。 |
There has been an explosion of new ideas, initiatives, tools, and simulations, as a result of Anthropic employees working with highly capable models — far more than we have the capacity to pursue. The rate at which organizations can spot and fix these bottlenecks may become the most important skill for any organization. AI 让想法、项目、工具和模拟呈爆炸式增长,远超组织有能力推进的规模。识别并疏通这些瓶颈的速度,可能会成为任何组织最重要的能力。 Levie 转发 Anthropic 的内部效能报告并给出了一个关键解读:AI 的核心瓶颈已经从「能不能做」转移到了「做得完吗」。当模型能生成远超人力的想法时,组织的约束不再是智能供给,而是执行带宽。他特别强调——即使 Agent 增强了每一个人,这些工作最终仍然需要人类来管理。这可以看作是对「全自动公司」叙事的一剂清醒针:AI 降低了每个创意的边际成本,但提高了组织决策的稀缺性。最好的公司不是有最多 AI 的公司,而是有最强「想法筛选和优先级排序」能力的公司。 |
Anton Osika is the co-founder and CEO of Lovable, where anyone can build software through conversation. His working thesis: the most underrated moat in AI is trust, and earning it takes craft, care, and obsession. AI 领域最被低估的护城河是信任,赢得信任需要工艺、用心和执着。 Anthropic 的「The Problem Solvers」系列本期聚焦 Lovable 创始人 Anton Osika,核心论点是「信任是 AI 时代最被低估的护城河」。当一个用户把产品构思、代码仓库、甚至公司运营交给一个对话式 AI 工具时,他们交出的不是一段 prompt,而是整个业务的「数字信托」。Lovable 的口号是「任何人都能通过对话构建软件」,但 Osika 清楚地知道:降低门槛只是入场券,长久的留存靠的是每一次交互都在积累信任。在 AI 编程工具卷到飞起的 2026 年,这句话的分量不亚于任何一个模型 benchmark。 |
I'm hiring a PM for Claude Code, focused on model performance. If you have experience writing agentic evals and want to integrate research ideas into our core products, I'd love to hear from you. 我正在为 Claude Code 招聘一位专注模型性能的产品经理。如果你有编写 Agent 级评测的经验,并希望将研究思路集成到核心产品中,欢迎联系。 这条招聘信息远不止是一则 HR 帖。Cat Wu 在寻找的是一个连接「Agent 评测研究」与「核心产品」的 PM——这个岗位描述本身就揭示了 Anthropic 当前的产品优先级:模型性能(而非功能数量)是第一指标,而衡量性能的方式已经从传统 benchmark 迁移到了「Agent 级评测」。换句话说,Claude Code 团队不是在找一个来写 PRD 的人,而是在找一个能把研究团队的最新能力「翻译」成产品体验的人。这印证了 Alex Albert 的数据——当代码仓库 80% 由 AI 撰写时,衡量产品好坏的标准也必须重新定义。 |
Congrats Void team! We @vercel reaffirm our collaboration on an open platform for the web, with our investment in Nitro, open runtimes, and native support for Vite-based frameworks like Nuxt, Svelte, and TanStack Start. 祝贺 Void 团队!Vercel 重申对开放 Web 平台的承诺:投资 Nitro、开放运行时、原生支持 Nuxt/Svelte/TanStack Start 等 Vite 框架。 在一次以「开放平台」为关键词的声明中,Rauch 将 Vercel 的战略路径说得很清楚:不是做一个封闭的全栈花园,而是成为所有 Vite 生态框架的默认部署层。投资 Nitro(一个通用服务器引擎)和原生支持多框架,本质上是把 Vercel 从「Next.js 的托管商」升级为「Web 开放运行时的基础设施」。这个动作在 Agent 时代别有深意——当 AI 生成的应用需要即时部署时,一个不挑框架、不锁厂商的平台就成了不可替代的基础层。 |
METR evals cap out at ~16 hours. Cog has private enterprise evals up to 100hrs, and is confident enough to put a financial guarantee on it. This is pioneering real world evals work and part 1 of a broader frontier code evals drop. METR 评测上限约 16 小时。Cog 的私有企业评测长达 100 小时,并有足够的信心提供财务保障。这是开创性的真实世界评测工作。 Swyx 详细对比了 AI 编程评测的两条路径。METR 用 7 位技术人员的 Claude Code 会话作为基准,任务包括 ML 工程和网络安全;而 Cog(Devin 团队)则从 126 位企业用户的 258 个真实会话中提取数据,覆盖 Java/TypeScript/Python/C# 的特性开发、Bug 修复和迁移任务。差距不是方法论之争,而是时间尺度的根本不同:16 小时 vs 100 小时。当你为 Agent 提供财务保障时,你实际上是在说「我相信它能在 100 小时的自主工作中不出大乱子」——这才是企业级 Agent 评测的真正门槛。Swyx 称这是「不 glamorous 的最后一英里数据收集工作」,但正是这种工作定义了 Agent 时代的工程标准。 |
Spiral 4.0 — a writing partner for you and your agent. We built a new Style Engine based on the principles of stylometry to extract your brand's voice. MCP and CLI: Spiral is now built to be used by your agent like Codex, Claude Code, OpenClaw and more. Spiral 4.0——为你和你的 Agent 打造的写作伙伴。基于风格计量学原理构建的 Style Engine,MCP/CLI 支持,可直接被 Codex、Claude Code、OpenClaw 等 Agent 调用。 Spiral 4.0 的发布标志着 AI 写作工具的一次范式跃迁:从「人在 AI 工具里写」变为「Agent 通过 MCP 自动调用写作引擎」。Dan Shipper 提到的「风格计量学」(Stylometry)是指用语言学特征分析来量化一个人的写作风格——不只是模仿语气,而是提取可计算的风格参数。Every 的 30 人团队已全面使用它来生成 Landing Page、推文、播客和营销邮件,确保全品牌一致。当一个 AI Agent 能自动产出符合你品牌调性的内容时,内容创作的瓶颈从「能不能写」变成了「能不能定义好风格」。 |
Now I'm convinced that you can save at least 50% of your time on any type of knowledge work if you just set up the system upfront. Note that all my workflows have human checkpoints along the way so I can apply my "taste." 我现在确信:只要提前搭建好系统,你可以在任何类型的知识工作中节省至少 50% 的时间。注意我所有的流程中都有「人类检查点」,这样我可以施加我的「品味」。 Peter Yang 花了一整天在 Codex 中搭建自己的创作者工作流。他给出的三步法简单但实用:回顾上周最耗时的重复性工作 → 列出每一步的详细清单 → 丢给 Codex 问「帮我建什么集成和 Skill」。但最值得记下的不是效率数字,而是他刻意设置的「人类检查点」——每个流程中都有一个人工的决策节点,确保 AI 产出经过「品味」过滤。这可能是 AI 时代最被低估的技能:不是写 prompt,而是设计人与 AI 交替介入的流程节奏。另外他也直言 Codex 前端设计仍有差距——Claude 可以一次输出精美 HTML 幻灯片,Codex 却做不到——这对一个定位「全栈 AI」的工具来说是体验短板。 |
🎙Dan RobertsOpenAI 强化学习基础团队负责人 · 前理论物理学家 · 黑洞与量子引力出身 One of the things that ChatGPT was able to do was assume it was false. When you go against the grain and do something contrarian like that, you really have to have strong conviction in what you're doing in order to persevere down a really long calculation path. ChatGPT 能做到的事情之一就是「假定它是错的」。当你逆流而行、做这种反主流的事情时,你必须有极强的信念才能坚持走完一条漫长的计算路径。 The MAD Podcast 本期嘉宾是 OpenAI 强化学习基础团队负责人 Dan Roberts。这不是一次产品发布访谈,而是一次关于 AI 科学发现的哲学探讨——确切地说,是关于「为什么 AI 现在真的能做科学了」。 背景值得留意。Roberts 的学术起点是理论物理学——研究黑洞和量子引力——后来转向 AI 研究。从他的视角看,RL 是理解「智能」的最有趣入口。本届访谈发生在 OpenAI、DeepMind、Anthropic 接连攻克多个 Erdos 数学问题的背景下,Roberts 将它定位为 AI 从「做我们让它做的事」到「自主做出深度科学发现」的分水岭。 他的核心论点可以提炼为几个层次。第一层:RL 不再是锦上添花的「樱桃」,而是蛋糕本身——当模型通过试错学习(而非被动模仿数据)时,它们获得了「思考」的能力。第二层:可验证的奖励信号是关键。数学和编程天然提供这种信号(对错分明),但真实世界的科学问题更 messy——你需要设计出既忠实于现实、又能被自动验证的奖励结构。第三层:RLHF 塑造了早期语言模型的行为,但真正的 RL 是在没有人类反馈的情况下自我探索。Roberts 用「探索 vs 利用」的经典框架解释了为什么 ChatGPT 能在 Erdos 问题上成功:它愿意「假定自己是错的」并走一条反直觉的路径——这需要模型对自己选择的计算方向有足够的「信心」,而这种信心来自 RL 训练。 还有一个令人深思的类比。Roberts 把物理学和 AI 放在一起看:物理学家用最少的方程解释最多的现象,而 AI 目前在某种程度上是「反物理学」的——用海量参数拟合海量数据。但他认为「AI 的热力学」正在萌芽:是否存在某种守恒定律或效率边界,决定了多少计算能产生多少智能?这个问题一旦被回答,将重新定义我们对模型 scaling 的理解。 关于「AI 自动化 AI 研究还有多远」,Roberts 的回答很诚实但也很乐观。他感到兴奋的不是今天能跑多少个 benchmark,而是模型正在成为科学发现的「驱动力」而非仅仅是工具——就像望远镜之于天文学,AI 之于科学将不只是看数据更快,而是看到人类裸眼看不到的东西。 |
以上内容基于公开社交媒体信息整理,已脱敏处理个人身份信息
夜雨聆风







