今天阅读的AI行业进展情况,值得分享的内容。P
一、Claude Fable 5 / Mythos 5 模型发布
1、Anthropic官方发布与技术细节
Anthropic发布Claude Fable 5,这是首个公开发布的Mythos级模型,能力超过Anthropic以往任何公开可用模型,在几乎所有基准测试中达到SOTA,尤其在软件工程、知识工作、科学研究和视觉任务上表现突出,任务越长越复杂,领先优势越大。官方新闻页面:https://www.anthropic.com/news/claude-fable-5-mythos-5
(来源:@claudeai,Anthropic官方账号)
2、Fable 5安全防护机制
Fable 5会检测网络安全、生物/化学以及蒸馏相关请求,平均在少于5%的会话中触发回退到Opus 4.8,并告知用户。Anthropic正在持续优化以减少误报。同时为部分网络防御者和关键基础设施提供商推出Claude Mythos 5,底层模型相同但在某些领域解除防护,计划通过更广泛的受信任访问程序扩展使用范围。
(来源:@claudeai,Anthropic官方账号)
3、Karpathy的深度评价
Karpathy认为这是超级令人兴奋的发布,基准测试非常出色,几乎所有方面都达到SOTA且领先明显。定性上这也是一个值得主要版本升级的重大飞跃,与他认为的Claude 4.5在11月的升级同量级,尤其在处理非常困难问题的长时间问题解决会话中表现出色。模型仍有怪癖,安全防护启动稍频繁。他感受到软件开发正在改变,Jevons悖论生效,对软件的需求大幅增长,可以用于任何东西:解释器、可视化、仪表板、定制单用途应用、自动优化代码等。
(来源:@karpathy,知名AI研究者、前Tesla AI总监)
二、Claude Fable 5在各大AI开发工具中的集成
1、Cursor
Claude Fable 5现已在Cursor可用,在CursorBench上达到新SOTA 72.9%,领先之前最佳8分。对比链接:https://cursor.sh/claude-fable-5
(来源:@cursorai,Cursor官方账号)
2、Cline
在Terminal-Bench 2.1上排名第一,得分88.0%,领先GPT 5.5约4.6%。底层为Mythos模型,安全路由危险请求到Opus 4.8,触发率低于5%。已在Cline中可用,提供CLI安装命令及VS Code/JetBrains扩展。
(来源:@cline,Cline官方账号)
3、Devin
Fable 5在Cognition的FrontierCode基准上获得第一名,该基准针对真实世界工程任务评估可合并性和质量。Devin Ultra是最智能的代理,擅长长期任务和调试,已针对Fable 5优化,成本仅比默认Devin代理高约40%。博客文章:https://devin.ai/blog/claude-fable-5-available-in-devin
(来源:@cognition,Cognition官方;@dabit3,Devin Growth)
Scott Wu补充:基准发布仅一天就出现新的最高分记录,FrontierCode Diamond分数从Opus 4.8的13.4%提升至29.3%。
(来源:@ScottWu46,Cognition构建者)
4、Browser Use Terminal
Claude Fable 5已在Browser Use Terminal中上线。Browser Use创始人mamagnus00演示Fable花费7.21美元尝试为口香糖寻找优惠码,同时提到新架构使用自定义Rust harness加TUI、直接CDP控制、全浏览器动作空间、自我恢复失败等特性。
(来源:@mamagnus00,Browser Use创始人)
5、Nous Research Hermes Agent
Claude Fable 5已通过Nous Portal支持在Hermes Agent中使用,前500名新用户可获一个月Plus计划免费试用。Ollama现支持Hermes Desktop,运行命令为ollama launch hermes-desktop。
(来源:@NousResearch,开源AI研究团队)
三、Fable 5对行业产品形态的影响讨论
1、从任务到责任的转变
Anthropic的Claude Cowork/Code共同维护者Felix Rieseberg认为,Fable 5和Mythos 5发布带来从任务到责任的转变,过去用户给AI提问题或分配具体任务,现在可赋予持续责任,如监控所有崩溃报告并防止应用崩溃,这将引发人机交互界面的重大变革,预测2027年的AI应用外观将与今日大不相同。
(来源:@felixrieseberg,Anthropic Claude Cowork/Code共同维护者)
2、AI自动化需要真实上下文投入
Box CEO Levie认为,无论AI模型多么智能,都无法取代上下文需求。对于通用AI,总是需要引导它走向特定方向,因为可能性无限。律师、工程师等都需要将指令、领域上下文和专有数据放入上下文窗口,这解释了为什么AI自动化并非免费,需要投入真实工作才能获得价值。
(来源:@levie,Box CEO)
四、其他AI产品与技术进展
1、Google Gemini 3.5 Live Translate
支持70多种语言的语音到语音翻译,能在日常产品中实现更自然的跨语言对话,支持实时流式处理同时保留语气、节奏和音调,以及嘈杂环境下的鲁棒噪声过滤。已在Google Translate中推出,并通过Google AI Studio的Live API提供。
(来源:@JeffDean,Google DeepMind & Google Research首席科学家;@googledeepmind;@googleaistudio)
2、Perplexity Computer与哈佛合作研究
Perplexity与哈佛合作发布新研究,探讨从聊天界面转向自主代理的转变。在超过3个月的观察中,使用Computer的工作者完成任务的时间减少87%,成本降低94%,且满意度更高。此外Perplexity在伦敦科技周宣布Billion Pound Build竞赛,团队可使用Perplexity Computer构建公司,竞争分享100万英镑Computer信用,7月6日截止。提交链接:https://billionpoundbuild.pplx.app/
(来源:@alexgraveley,Perplexity Computer联合创建者;@PERPLEXITYAI)
3、Perplexity集成投资账户
现在可以将投资账户通过Plaid安全连接到Perplexity Computer,扩展其作为个人CFO的功能。
(来源:@JeffGrimes9,Perplexity Live Events产品负责人)
4、LangChain多项产品更新
推出LangSmith LLM Gateway;推广LangSmith Fleet模板中的Executive Assistant,可管理收件箱、日历和每日简报;分享Interpreter Skills实验,支持包含TypeScript模块的技能;介绍LangSmith Sandboxes,几秒内启动可扩展至数千实例。LLM Gateway介绍:https://www.langchain.com/blog/introducing-llm-gateway
(来源:@LangChain,LangChain官方账号)
5、Deno开源代理安全防火墙Clawpatrol
Deno创始人Ryan Dahl发布Clawpatrol项目,为让代理自主访问生产系统而构建的防火墙,Go语言编写,已开源。整个代理进程树被视为完全不可信,解析Postgres wire协议以精细控制SQL操作,禁止GRANT/REVOKE/DROP,要求人工介入INSERT/UPDATE等,高度可配置。GitHub:https://github.com/denoland/clawpatrol
(来源:@rough_sea,Ryan Dahl,Deno联合创始人、Node.js创建者)
6、OpenAI Responses API与开发者案例
Responses API中的网页搜索现支持图像结果,可返回产品、地点、视觉参考和来源链接。另外有开发者使用GPT-5.5替换复杂OCR管道,使23000多篇论文免费可用并提供更完整英文翻译。
(来源:@openaidevs,OpenAI开发者官方账号)
7、AI科学家自进化研究
MIT教授Markus J. Buehler的突破性工作,AI从搜索转向原理发现,能感知搜索空间的变化,构建可验证的模式扩展。
(来源:@alexgraveley 转发MIT教授研究)
8、脑机接口图像重建
展示通过脑电信号解码重建看到的图像,使用OB1模型,非侵入性方式实现thought-to-image。
(来源:@yoheinakajima 转发Priyanka Jain关于BCI的研究)
9、World Labs交互演示
World Labs与Lore合作,将梦想转化为浏览器中可交互的世界体验。
(来源:@drfeifei,Stanford大学教授,赞扬@theworldlabs与@withloreco合作)
五、行业观察与其它动态
1、模型品牌化策略观察
A16Z AI应用投资人Illscience分析,将产品命名为Fable和Mythos 5而非纯数字编号,似乎是有意以品牌为主导,类似从Pentium到486的转变思路,人们更愿意直接使用前沿产品,淡化模型编号能更好地实现这一点。同时指出几乎任何App在2026年的模型发布版本下都能在很大程度上被生成出来。
(来源:@illscience,A16Z AI应用投资人)
2、开源社区对前沿模型封闭化的担忧
Eigent AI创始人Guohao Li评论,前沿LLM的PhD研究者或Megatron、FSDP、Verl、SGLang、vLLM等开源基础设施贡献者,可能在日常工作中使用降级版的Claude模型而未被通知,这对LLM研究和开源社区来说是遗憾的消息。
(来源:@guohaoli,Eigent AI / CamelAIOrg创始人)
3、AI代理赛道仍在加速
saranormous指出Cursor、Lovable、Cognition等公司的数字打破了叙事,即AGI实验室路径尤其是编码代理领域本应衰退而非加速发展。
(来源:@saranormous)
4、欧洲ML工程师薪资讨论
Platformatic联合创始人Matteo Collina提到意大利有80到120k欧元的技术职位,虽然全球来看不算高,但与当地生活成本更匹配,强调工作范围、价值和远程办公因素。
(来源:@matteocollina,Platformatic联合创始人兼CTO,Node.js TSC主席)
5、Vercel Project Glasswing安全硬化
Vercel CTO cramforce感谢Anthropic团队在Project Glasswing中用Mythos调查just-bash,没有严重发现,将发布带小硬化改进的版本。just-bash是成熟攻击面,主要由Opus 4.5编写,人审很少,但有深度硬化循环和严格机器编码规则。
(来源:@cramforce,Vercel CTO)
夜雨聆风