AI Builders 日报
🚀本周最大炸弹:Claude Mythos 来了
如果你上周没有刷 AI 圈的动态,可能错过了近几个月最重磅的一次模型发布。4月7日,Anthropic 悄悄推出了 Claude Mythos Preview——这个名字本身就透露着「史诗级」的野心。官方人员用「我加入 Anthropic 三年来见过的最重大事件」来形容它。那么,它到底有多强?
Claude Mythos:Anthropic 三年来最重大的时刻
Anthropic 研究员 Alex Albert 的推文创下了本周点赞纪录:「我们刚发布了 Claude Opus 4.6 才两个月,今天就要分享新模型 Claude Mythos Preview 的一些信息。」这条推文收到了 16,000+ 点赞和 1,100+ 转推——在 AI 领域,这个数字代表着整个行业都在屏住呼吸。Alex 后续还说:「Project Glasswing(Mythos 的内测项目)可能是我加入 Anthropic 近三年来,见过的最具影响力的事。感觉我们正站在历史的转折点上。」目前 Mythos Preview 仅向 Project Glasswing 的合作伙伴开放。
💡 为什么重要Anthropic 两个月发一个重磅模型,迭代速度令人咋舌。Mythos 被称为「双位数百分比的关键指标提升」,意味着 AI 编程、推理和自主任务能力又上了一个台阶。
🎯 小白解读想象一下,你刚买了一台最新款手机,结果两个月后厂家又出了一个「Pro Max 旗舰版」,说「这才是真正的大杀器」。AI 圈现在就是这种节奏——不是每年升级,是每两个月就可能颠覆一次。
📊 来源:Alex Albert
Box CEO:Mythos 再次证明「模型能力没有天花板」
Box CEO Aaron Levie 看到 Mythos 后立刻发文:「Mythos 再次清楚地提醒我们,模型能力的进步目前没有任何墙壁。关键指标上出现了有意义的两位数增长,而且其他实验室也会持续带来疯狂的进步。」他特别指出:「编程和工具使用能力的提升,直接推动了 Agent 工作流的进化。大多数知识型工作的自动化,都受限于模型能否推理复杂任务、使用正确工具、获取正确上下文、编写代码来处理和验证数据。前沿实验室将持续带来的能力提升,将在金融、医疗、法律、咨询、供应链等领域开辟全新的应用场景。」
💡 为什么重要这不是简单的技术评测,而是一个 CEO 在为「下一步商业决策」做判断。他的结论是:确保你正在构建的东西,能够充分利用即将到来的这些改进——否则你将陷入战略困境。
🎯 小白解读就好比智能手机刚出现时,如果你的生意依赖「人工拨打电话营销」,那你一定要想清楚:怎么顺势转型,而不是死守老路。Levie 说的就是这个意思——不是「要不要拥抱 AI」,而是「你的商业模式能不能接住 AI 的升级红利」。
📊 来源:Aaron Levie
🤖Agent 工作流:从「AI 助手」到「AI 同事」的跃迁
「Agent」这个词最近被说烂了,但真正能把它讲清楚的人不多。Aaron Levie 这周发了一篇堪称教科书级别的长文,用一个真实案例解释了:当 AI 从「回答问题」变成「帮你做事」,会发生什么质变。
Box Agent 实战:几小时的工作,现在让 AI 「后台搞定」
Aaron Levie 分享了 Box Agent 填写 RFP(招标提案文件)的案例:这种工作通常需要几个小时,还要用户全神贯注。现在,你只需给 Box Agent 提供 RFP 问题清单,它会自动制定计划、提取相关问题、通读现有知识库来生成答案、最终输出一份 Word 文档——全程你可以去干别的事。Levie 解释了为什么这在六个月前还做不到:「过去的模型在追踪长时间任务、或在正确时机使用正确工具方面经常失败。但现在,这些都成为可能,而且每个月都在变好。」
💡 为什么重要这意味着 AI 已经可以「独立完成任务」,而不只是「帮你出主意」。Levie 的判断是:这种变化会扩展到法律、金融、咨询、销售、市场等所有知识型工作——「当我们遇到问题,我们直接让 AI Agent 去后台处理,然后我们去做别的事」。
🎯 小白解读以前的 AI 像「百科全书」:你问它,它告诉你答案,但事还得你自己做。现在的 AI Agent 像「实习生」:你把任务交给它,它自己去查资料、做计划、写文档,回来交给你审核。区别就这么大——但对工作效率的影响,是质的飞跃。
📊 来源:Aaron Levie
🎙️深度播客:OpenAI 内部的「无人审查」编程实验
这一期 Latent Space 播客值得单独拿出来讲。OpenAI 工程师 Ryan Lopopolo 做了一件在软件工程界近乎「荒唐」的事:用 5 个月时间,在一个「0行人工代码、0次人工审查」的约束下,构建了一个百万行代码的应用。结果怎么样?比他预期好 10 倍。这期播客揭示的,是 AI 编程的下一个阶段。
百万行代码、零人工审查:OpenAI 工程师用 AI 重新定义了「写代码」
Ryan Lopopolo 来自 OpenAI 的 Frontier 团队,他给自己设了一个极端的约束:从项目第一天起,就不亲自写任何代码——全部交给 Codex(OpenAI 的 AI 编程工具)。5 个月后,代码库达到了 100 万行,提交了 1,500 个 PR,整个团队只有 3 个人,但效率相当于一个大型工程团队。最反常识的发现是:他们甚至取消了代码合并前的人工审查。代码由 AI 写完后,另一个 AI 审查员负责审核,问题只需确认「能否合并」,人工只在最后发布前做一次烟雾测试。Ryan 总结说:「人类同步注意力是唯一真正稀缺的资源。」
💡 为什么重要这不只是一个技术演示,而是「未来软件工程师如何工作」的蓝图。Ryan 的角色从「写代码的工程师」变成了「给 AI 团队设定方向、解决卡点、优化流程的系统架构师」。
🎯 小白解读想象一下餐厅老板:以前你要亲自炒菜,现在你只需要定菜单、把控出品标准,厨师(AI)负责做菜,还有另一个 AI 充当质检员。你变成了「总厨」而不是「炒菜工」。这就是 AI 编程正在带来的转变——不是「AI 取代程序员」,而是「程序员升级为 AI 团队的负责人」。
📊 来源:Latent Space
「给 AI 写说明书」:Harness Engineering 的核心方法论
播客里最实用的部分,是 Ryan 关于「Harness Engineering(AI 工作环境工程)」的具体方法。他的核心观点:AI 的能力上限,取决于你给它准备的「工作环境」有多好。具体做法包括:- 把所有不成文的工程规范写成文档(「好的代码长什么样」「什么情况下不能合并」),让 AI 能「学习」团队的标准- 设计「1分钟内完成的构建系统」,让 AI 的反馈循环尽可能快- 用 AI 自动审查 PR、追踪故障、修复 bug——形成一个完全闭环的自动化流水线- 把过去叫做「代码依赖库」的第三方工具,直接用 AI 内化重写,只保留自己需要的部分他最犀利的一句话:「大多数 AI Agent 失败的根因,是它们缺少足够的上下文,而不是模型能力不足。」
💡 为什么重要「Harness Engineering」可能是 2026 年软件工程界最重要的新概念。它回答了一个核心问题:为什么同样用 AI 编程,有人 10 倍效率,有人却越用越混乱?
🎯 小白解读就像教新员工一样:一个公司如果没有清晰的工作手册、没有标准流程,新人(AI)会乱成一团;但如果你把所有「应该怎么做」都写清楚,AI 就能成为真正的生产力。Ryan 的方法本质上是:「把工程师的智慧,变成 AI 可以理解的文字说明」。
📊 来源:Ryan Lopopolo
🛠️AI 工具新动态:值得关注的小更新
大新闻之外,这周也有几个实用工具的更新,适合已经在用 AI 工具的朋友关注。
CodexBar 0.20:一个菜单栏 App,追踪 16 家 AI 的用量和费用
Peter Steinberger(OpenClaw 创始人)发布了 CodexBar 0.20。这个 macOS 菜单栏应用可以同时追踪 16 个 AI 提供商的 token 用量和费用。新版本新增了 Perplexity 和 OpenCode Go 支持,还修复了 Claude token 计数重复导致费用虚高的问题,加入了成本历史合并功能。对于同时使用多个 AI 工具的重度用户,这是个实用小工具。
💡 为什么重要随着 AI 工具越来越多、越来越贵,用量和费用管理变成了刚需。CodexBar 这类工具的出现,说明「AI 工具管理」本身已经成为一个细分市场。
🎯 小白解读就像你用「账单管理」App 查看各平台的订阅费用,CodexBar 干的是同一件事——只不过是针对 AI API 调用费用。
📊 来源:Peter Steinberger
Cursor 设计师分享新交互:「点击、画、聊——完全沉浸」
Cursor AI 编辑器的设计师 Ryo Lu 发布了一段 UI 演示,展示了新的交互方式:没有多余的按钮,只需点击、画框、聊天,就能直接在界面上操作。这延续了 Cursor 一贯追求「减少摩擦、让开发者保持心流状态」的设计哲学。
💡 为什么重要AI 编程工具的竞争,正在从「功能多不多」转向「用起来顺不顺」。Cursor 押注的是:最好的工具应该「消失在背景里」。
🎯 小白解读想象用手写板直接在屏幕上涂改代码,而不是写一堆指令——这就是 Cursor 想要的感觉。
📊 来源:Ryo Lu
「内容为你一人」:Zara Zhang 发布个性化播客 Skill
Zara Zhang(follow-builders 项目创始人)推出了「个性化播客 Skill」:把任何内容(比如你的会议记录)转化成有两位 AI 主播的播客,生成 RSS 订阅源,然后在你喜欢的播客 App 里收听。Zara 自己试了把会议记录做成播客,让 AI「偷听」她的对话,然后评论自己对她的印象——「太疯狂了」。她把这个时代称为「content for one(内容为你一人)」。
💡 为什么重要个性化内容消费的极限形态:把「你经历的事情」变成「你能消费的内容」。这是一个关于 AI 如何改变内容生产逻辑的有趣信号。
🎯 小白解读以前播客是「少数人对多数人说话」,现在可以是「AI 帮你把自己的生活做成只属于你的播客」。这个 idea 有点荒诞,但也很迷人。
📊 来源:Zara Zhang
💡一线洞察:从业者的真实判断
这周几位来自不同角色的从业者,都在思考同一个问题:在 AI 加速的时代,什么才是真正重要的?他们的观点,有时比技术本身更值得细品。
「让设计师当 PM,他们会做得很好」
Linear(项目管理工具)产品负责人 Nan Yu 发了一个反直觉的观察:很多设计师和工程师在被问到抽象产品问题时表现出色——但只要他们拿着 Figma 或 IDE,就会直接开始做,而不是先想清楚「应不应该做」。他的结论:「更多的设计师应该转型做 PM,他们会做得很好。」
💡 为什么重要这条推文有 191 个点赞,因为它触及了产品开发中一个永恒的矛盾:工具会驱动行为,而行为有时候会让你跳过最关键的「思考」阶段。
🎯 小白解读就像厨师拿到食材会立刻开始切菜,而好的餐厅总监会先问:「今天的客人需要什么?」——当你习惯了用某个工具解决问题,有时候会忘记先问「这个问题值不值得解决」。
📊 来源:Nan Yu
YC CEO 的硅谷现场:「这是几代人中最好的创业时机」
Y Combinator CEO Garry Tan 在 YC 活动上发言后说:「在 YC 演讲总是令人愉快。比以往任何时候都更看好。优秀的创始人、最好的城市、几代人中最好的创业时机和机遇。」这不只是场面话——YC 这一批投资的项目密度和质量,据内部人士说确实超过以往。
💡 为什么重要Garry Tan 对 AI 创业窗口期的判断是:机会窗口实实在在存在,但会随着行业成熟而收窄。「最好的时机」的言论,意味着现在还在窗口内。
🎯 小白解读淘金热时代,最先行动的人淘到金子,后来者只能开矿。AI 创业也是类似的逻辑——但与淘金热不同,AI 的「矿」还在继续生长,只是门槛在逐渐提高。
📊 来源:Garry Tan
投资人的警示:炫酷的演示掩盖不了空洞的产品
FPV Ventures 合伙人 Nikunj Kothari 发了一条对 AI 创业公司的批评:「不知从何时起,早期创始人开始优化「获得更多曝光」和「融到更多资金」,而不是专注产品和用户留存。」他说他的第一个习惯,是看那些「看起来很炫」的公司的更新日志——结果经常发现几周都没有新功能。「与其花时间做那个病毒式传播的发布视频,不如用同样的精力去服务真正会付钱的客户。」
💡 为什么重要这是一个老生常谈、但在 AI 时代格外重要的提醒:「发布时的流量」和「产品的真实价值」是两回事。在 AI 让演示门槛极低的时代,炫酷的 demo 比以往任何时候都更容易制造,也更容易掩盖真实问题。
🎯 小白解读餐厅的成功靠的是回头客,不是大众点评的首页曝光。一个好产品的标志是:用户用完还会再来,而不只是「打开看一眼,觉得很酷,然后再也不用」。
📊 来源:Nikunj Kothari
Sam Altman:3百万 Codex 用户,重置使用限制
OpenAI CEO Sam Altman 宣布:「庆祝每周 Codex 用户突破 300 万,我们正在重置使用限制。每增加 100 万用户,都会重置一次,直到达到 1000 万。快乐构建!」这条推文 18,000+ 点赞,是本周点赞量第二高的帖子(仅次于 Claude Mythos)。
💡 为什么重要300 万周活跃用户,意味着 Codex 已经是全球最大规模的 AI 编程工具之一。Sam 的做法是用增长数字换取用户好感,同时传递信号:OpenAI 在 AI 编程赛道上势如破竹。
🎯 小白解读以前软件公司庆祝「下载量突破 XX 万」,现在变成「每周活跃用户」——而且涨速快到「每增加 100 万就要庆祝一次」。这个速度放在任何行业都是异常的,但 AI 工具行业正在习以为常。
📊 来源:Sam Altman
📢 用大白话帮你读懂 AI 圈发生了什么。
Powered by follow-builders | 数据来自 X/Twitter、YouTube、技术博客
夜雨聆风