Meta实测重写软件通过率0%

AI编程神话破灭？Meta实测：重写软件通过率0%

xAI出租55万GPU · SubQ 1200万token · 讯飞智文发布

2026年5月7日·Meta/斯坦福ProgramBench：AI重写软件通过率0% · xAI向Cursor出租55万GPU · SubQ 1200万token上下文

Meta 和斯坦福联合发布 ProgramBench——要求 AI 从零重写 200 个软件项目，结果 9 款顶级模型完整通过率为 0%，最强模型 Claude Opus 4.5 平均通过率仅 51.2%。AI 编程神话，第一次被量化数据击穿。

xAI 向 Cursor 出租数万张 GPU 用于训练 AI 编程模型——马斯克的 55 万张 GPU 超算，开始对外商业化出租。

Subquadratic 发布 SubQ 模型，支持 1200 万 token 上下文，1M token 场景比 FlashAttention 快 52 倍，成本不到 Claude Opus 的 5%。

本期共收录 5 条动态，预计 10 分钟读完。

📰💥AI 编程的神话破灭时刻

Meta 和斯坦福联合发布 ProgramBench——要求 AI 从零重写 200 个软件项目，9 款顶级模型完整通过率为 0%。这不是「AI 不会编程」，而是「AI 还远没到能独立重写复杂软件的程度」。

头条

Meta/斯坦福 ProgramBench 实测：9 款顶级 AI 模型重写软件，完整通过率 0%

Meta 和斯坦福联合发布 ProgramBench——一个要求 AI 从零重写 200 个真实软件项目的基准测试。测试结果：9 款顶级 AI 模型（包括 Claude Opus 4.5、GPT-5.5、Gemini 3.0 等）的完整通过率为 0%。表现最强的 Claude Opus 4.5 平均通过率仅 51.2%，且大部分「通过」的项目是极小型代码库。研究结论：当前 AI 模型在「理解复杂代码库 + 独立重写」任务上，远未达到人类工程师水平。

关键信息

· ProgramBench：200 个真实软件项目，要求 AI 从零重写

· 9 款顶级模型完整通过率：0%

· 最佳模型 Claude Opus 4.5 平均通过率：51.2%

· 大部分「通过」项目是极小型代码库（<1000 行）

· 研究结论：AI 远未达到独立重写复杂软件的程度

这事意味着什么：这个研究的意义被严重低估了。过去两年，『AI 会取代程序员』的叙事一直驱动着科技行业的焦虑和股市波动。ProgramBench 第一次用量化数据给出了答案：当前的 AI 模型，在『从零重写一个中等复杂度软件项目』这个任务上，成功率是零。这意味着『AI 独立编程』还处在极其初级的阶段——它能辅助写代码，但远不能『理解并重建』一个复杂系统。对程序员来说，这是一枚定心丸；对 AI 公司来说，这是一记响亮的耳光。

0% 通过率——这个数字出来，我第一反应是『是不是测试太难了』。但仔细看方法论文：200 个项目是真实的开源软件，不是『LeetCode 算法题』，而是有真实依赖、真实构建流程、真实边界条件的软件系统。AI 模型大部分连『成功运行构建命令』都做不到，更别说生成能通过测试套件的代码了。我觉得这个研究会在 AI 圈引发巨大争议——Anthropic 和 OpenAI 肯定会说『我们下个版本就会好很多』。但数据是数据，51.2% 的通过率，而且还是『平均』，意味着一半以上的项目直接挂掉。程序员们，暂时不用慌。

重要度：★★★★★

信源：AITNT · 学术研究｜核验：待核实

📰⚡马斯克的 GPU 帝国开始对外营业

xAI 向 Cursor 出租数万张 GPU 用于训练 AI 编程模型——马斯克手里 55 万张 GPU 的超算，第一次对外商业化出租，标的直指『AI 编程模型训练』这个最烧钱的赛道。

xAI 向 Cursor 出租数万张 GPU，55 万张 GPU 的超算正式对外营业

xAI 拥有超过 55 万张 GPU，是全球最大的 AI 训练超算集群之一。今日消息显示，xAI 正在向 AI 编程工具 Cursor 出租数万张 GPU，用于训练 Cursor 的下一代 AI 编程模型。这是 xAI 的 GPU 算力第一次大规模对外商业化出租——过去这些 GPU 只用于训练 Grok 模型。与此同时，特斯拉同步发布了 AI5 芯片样品，预计 2027 年量产。xAI 的算力商业化，可能重塑 AI 训练市场的格局。

关键信息

· xAI GPU 总数：超 55 万张（全球最大超算集群之一）

· 出租对象：Cursor（AI 编程工具）

· 出租规模：数万张 GPU

· 用途：训练 Cursor 下一代 AI 编程模型

· 同步消息：特斯拉发布 AI5 芯片样品，2027 年量产

这事意味着什么：xAI 出租 GPU 这件事，本质上是在说：『我有全世界最便宜的算力（田纳西州超算中心，电费极低），你们来租吧』。这对 AI 训练市场的影响是结构性的——过去只有微软/谷歌/亚马逊能提供大规模训练算力，现在 xAI 入场，而且价格可能更低（电费优势 + 马斯克不在乎短期盈利）。Cursor 是第一个大客户，但绝对不会是最后一个。

55 万张 GPU——这个数字是什么概念？英伟达 H100 每张约 3 万美元，55 万张就是 1650 亿美元的设备。当然马斯克拿的是折扣价，但哪怕按折扣算也是几百亿美元的投入。现在他开始出租这些 GPU 回血，说明 xAI 的现金流压力可能比外界想象的大。但换个角度：能拿出数万张 GPU 租给 Cursor，说明 xAI 的算力储备确实雄厚。如果 AI 训练算力的价格战开打，英伟达是最大的赢家（卖更多卡），而微软 Azure 可能是最大的输家（训练算力溢价被压缩）。

重要度：★★★★★

信源：AITNT · 商业动态｜核验：待核实

📰🚀新架构突破：1200 万 token 上下文

Subquadratic 发布 SubQ 模型——基于 SSA 架构，支持 1200 万 token 上下文，1M token 场景比 FlashAttention 快 52 倍，成本不到 Claude Opus 的 5%。13 人的小团队，正在挑战 Transformer 的统治地位。

Subquadratic 发布 SubQ 模型：1200 万 token 上下文，成本仅 Claude Opus 的 5%

Subquadratic 是由 13 人组成的小型 AI 公司，今日发布基于 SSA（Subquadratic Stable Attention）架构的 SubQ 模型，支持 1200 万 token 上下文窗口。性能数据：1M token 场景下，比 FlashAttention 快 52 倍；计算量较 Transformer 减少千倍；API 成本不到 Claude Opus 的 5%。公司已获得 2900 万美元种子轮融资。但发布后，业内对其基准测试数据提出质疑，认为需要独立第三方验证。

关键信息

· SubQ 模型：基于 SSA 架构，支持 1200 万 token 上下文

· 性能：1M token 场景比 FlashAttention 快 52 倍

· 计算量：较 Transformer 减少千倍

· 成本：API 不到 Claude Opus 的 5%

· 团队规模：13 人，种子轮 2900 万美元

· 争议：业内质疑基准测试数据，要求独立验证

这事意味着什么：SubQ 模型如果数据属实，将是 Transformer 架构以来最重大的突破之一。Transformer 的『二次复杂度』（上下文翻倍，计算量翻四倍）一直是 AI 扩展的瓶颈。SSA 架构声称把复杂度降到了『接近线性』——这意味着未来处理超长上下文（百万级、千万级 token）将不再是天价。但 13 人团队 + 惊人数据 + 业内质疑，这个组合让人想起 2023 年的 Mistral——当时也没人相信 7B 模型能打 70B。真相需要等独立评测。

13 个人，做出比 Transformer 快千倍的模型——我看到这个新闻的第一反应是『这不科学』。但仔细看 SSA 架构的原理：它用『稳定注意力』机制替代了 Transformer 的『全对全注意力』，类似 Mamba 的状态空间模型思路，但做了新的工程优化。这个方向（Subquadratic 复杂度）是正确的，但是不是真的能做到『千倍降低』，我持保留态度。Transformer 的二次复杂度是『理论下限』，绕开它需要全新的架构假设。Subquadratic 可能确实做出了重要突破，但『千倍』这个数字需要独立验证。我预测未来 3 个月会有大量第三方评测出来——如果数据属实，这是 2026 年最重要的技术突破。

重要度：★★★★★

信源：AITNT · 产品发布｜核验：待核实

📰🇨🇳中国 AI 产品动态：讯飞智文 + 蚂蚁 Muse

科大讯飞推出讯飞智文 Vision Agent，千万用户级别的多智能体 AI 创作工具；蚂蚁集团秘密研发「Muse（巧妙思）」AI 灵感创作产品——中国 AI 应用层的创新速度，正在超过模型层的追赶速度。

科大讯飞推出讯飞智文 Vision Agent：多智能体协作生成商业 PPT，超千万用户

科大讯飞今日推出讯飞智文 Vision Agent，采用多智能体架构，可按用户需求生成商业级 PPT，支持分步协作修改，同时提供讲稿生成、演练辅助、数字人视频功能。产品已拥有超千万用户，是中国 AI 办公工具赛道的重要玩家。讯飞智文的方向（多智能体协作 + 办公场景）与 Microsoft 365 Copilot 直接竞争，但定价更低，本地化更好。

关键信息

· 讯飞智文 Vision Agent 发布：多智能体架构

· 核心功能：生成商业 PPT + 讲稿 + 演练 + 数字人视频

· 用户规模：超千万

· 竞争对标：Microsoft 365 Copilot

· 差异化：定价更低，本地化更好

这事意味着什么：讯飞智文的发布，背后有一个值得关注的逻辑：中国 AI 应用层的创新速度，正在超过模型层的追赶速度。GPT-5.5、Claude 4.5、Gemini 3.0 这些顶级模型，中国公司暂时还做不出来；但『把 AI 能力装进一个好用的产品里』这件事，中国公司做得很快。讯飞智文、通义千问、文心一格、豆包——这些产品的用户体验，很多维度已经不输给 Microsoft Copilot。应用层的优势，最终会反哺模型层（更多用户 = 更多数据 = 更好的模型）。

千万用户——这个数字意味着讯飞智文已经是一家中型 SaaS 公司的规模了。但我最好奇的是：『多智能体架构』具体是怎么工作的？是背后接了多个不同的模型（讯飞自己的 + 外部的），还是把一个任务拆给多个 Agent 协作？从产品描述来看，应该是后者：一个 Agent 负责内容提纲，一个 Agent 负责排版，一个 Agent 负责讲稿生成……这种『Agent 分工协作』的模式，会是未来 AI 办公工具的标准架构。Microsoft Copilot 也在做类似的事，但讯飞的优势是『更懂中国用户的 PPT 审美』——这一点不能小觑。

重要度：★★★★★

信源：AITNT · 产品发布｜核验：待核实

蚂蚁集团秘密研发「Muse（巧妙思）」AI 灵感创作产品，独家曝光

蚂蚁集团正在开发名为「Muse」（中文名或为「巧妙思」）的 AI 灵感创作类产品，定位偏向创意生成与灵感落地。这是蚂蚁集团在 AI 应用层的又一重要布局——此前蚂蚁已推出 AI 编程助手、AI 金融分析等产品。Muse 的差异化定位是「灵感创作」，可能覆盖文案生成、创意策划、内容脑暴等场景。目前产品仍在研发中，具体上线时间未定。

关键信息

· 蚂蚁集团秘密研发「Muse」（巧妙思）AI 灵感创作产品

· 定位：创意生成与灵感落地

· 覆盖场景：文案生成、创意策划、内容脑暴

· 蚂蚁 AI 布局：编程助手 + 金融分析 + 灵感创作

· 状态：研发中，上线时间未定

这事意味着什么：蚂蚁集团做『灵感创作 AI』这件事，看起来和它的主营业务（金融、支付）相去甚远。但有一个逻辑：蚂蚁有大量的商家客户（支付宝生态），这些商家需要『生成营销文案、创作推广内容』——Muse 可能是面向商家客户的 AI 创作工具。如果这个猜测是对的，蚂蚁的 AI 战略就很清晰了：To B（金融分析）+ To 商家（灵感创作）+ To 开发者（编程助手），全覆盖。

『巧妙思』——这个名字起得挺有意思，比『智能创作助手』之类的强多了。但我觉得蚂蚁做这个产品面临一个核心挑战：『灵感创作』是个很主观的东西，用户期望值很高，但 AI 生成的内容往往『差点意思』。讯飞智文做的是『PPT 生成』（目标明确，模板化），蚂蚁 Muse 做的是『灵感创作』（目标模糊，创意化）——后者的技术难度和用户满意度挑战都大得多。我不确定蚂蚁为什么选择这个方向作为 AI 应用层的突破口，可能是内部孵化项目的自然结果。

重要度：★★★★★

信源：AITNT · 独家爆料｜核验：待核实

AI 日报·专注 Meta/斯坦福ProgramBench：AI重写软件通过率0% · xAI向Cursor出租55万GPU · SubQ 1200万token上下文