“AI写不了完整软件”实锤了!9款大模型无一及格,豆包还开始收费…

大模型编程全军覆没，马斯克Grok Build意外泄露，豆包开始收“算力税”……今天AI圈的三条重磅信号

今天AI圈发生了三件看似无关、实则指向同一本质的大事。
编程基准测试跑完，9款大模型无人及格，“AI写不了完整软件”的真相浮出水面；马斯克解散xAI才四天，Grok Build编程工具就不小心提前泄露；还有一件跟你我有关——那个一直免费的豆包，开始收“算力税”了。

这三个消息分别指向AI的能力边界、商业玩法和成本结构，每一个都值得深挖。

📊 01 ProgramBench：大模型编程测试，全员0分

你有没有想过一个问题：AI这么能写代码，为什么还不能自己开发一个完整的软件？

本周，AI编程领域一个叫ProgramBench的新基准测试正式公布结果，总共用9款主流大模型参与测评，覆盖Claude Opus、Claude Sonnet、GPT 5.4、GPT 5.4 Mini、Gemini 3.1等全线产品。测试共计248,853项，对应的软件都是真实可用的开源工具——从底层库到命令行应用都有。评测方式也相当“实操”：只给你一个编译好的可执行文件和一份使用文档，源码什么都看不到，让AI自己规划、反过来写出源代码。

结果如何？没一个模型能让任何一个软件的所有功能全部通过。 总结下来就是：全军覆没，没有及格。

很多人第一反应可能是“程序员这饭碗保住了，AI吹了半天牛，能干完整的软件工程吗？”做软件开发十二年的老范讲故事节目作者，对这件事的评价更刺骨：这个评测最大的价值，不在它测出来的“零分”，而是把AI接下来要攻克的目标定义清楚了。

这就好比当年SWE-Bench之前，大家的标准是“你能写一个排序算法就行”。到SWE-Bench上线后，标准直接升级成了“你能看懂GitHub仓库里的bug、拉个分支、提个补丁搞定它”。现在的ProgramBench更狠——你不仅要会修bug，还要能把一个完整软件从二进制倒推出来。

大模型跑分已经到了一个奇怪的阶段：厂商自己测自己的数据普遍“90+高分”，但权威第三方评测一上，很多“纸老虎”就开始露馅了。目前SWE-Bench上不少大模型的解决率已经做到了70%多，甚至有点难分伯仲，反而让整个赛道陷入了“优质模型之间拉不开差距”的局面。

现在，ProgramBench像一面照妖镜一样，把AI编程的真实能力边界赤裸裸地摆上了台面：能做局部任务，但完整软件工程还远。而所有做AI Coding的团队，方向已经无比明确——死磕这个新的基准。毕竟，一旦“完整程序生成”被标准化后，大厂的爬榜大战很快就会跟上。

🧨 02 刚刚解散xAI四天，Grok Build就泄露了

今天，马斯克旗下已解散的xAI提前露出了新的王牌。

据多家科技媒体报道，继5月7日xAI宣布与SpaceX合并且更名为SpaceXAI后，仅过了三天，原本秘而不宣的Grok Build代码桌面工具测试入口便意外提前泄露——在原xAI网页端不小心暴露，随后迅速关闭。但核心功能已经曝光。

这款全平台桌面代码工具覆盖了Windows、macOS、Linux三大平台，和市面上绝大部分仅限云端的Agent编程工具不同，它采取的是本地全权限模式：能直接读取Git代码树，完整接管本地文件和文件夹系统，甚至支持自主启动开发者服务器，与本地开发环境深度融合。整款应用不是传统那种“一问一答”的对话大模型，而是一个做规划、跨任务自主执行的Agent工作流应用，还内置了浏览器、支持模型上下文协议（MCP）和各类官方插件。

当然，目前泄露的视觉和入口仅是一个测试残片。有大V推测这套特大型的Grok模型群——包括1万亿、1.5万亿、6万亿甚至10万亿参数的大模型——可能还藏在实验室里。虽然xAI法人主体已经归零，但马斯克仍旧在5月8日凌晨发推反驳“Grok已死论”，明确指出Colossus 2正在同时训练多款新Grok模型，“这些模型很快就会结出果实”。

与其说马斯克放弃了AI大模型，不如说，他正不声不响地准备一场AI编程界的逆袭之战。

💸 03 算力战争全面进入“付费时代”：豆包收起免费大旗

不管大模型在能力上能否逐个翻过山丘，烧的成本却是实打实的。今天一条更贴近普通读者的信号已经到来——字节跳动的豆包App开始不装了。

长期以“免费、亲民”标签狂揽3.45亿月活的豆包，最近悄然在苹果App Store里上线了最高达5088元/年的付费方案。虽然日常闲聊依然不需要花钱，但高耗能的生产力场景——长文本处理、复杂数据分析、影视制作——已经圈进了“算力税”清单。

巨头们也陷入了几乎无解的算力黑洞。原因既直白又暴力——大模型并不像传统软件那样只搞一次性开发就行，而是软件、云和重资产的混合体，每一次用户交互都是GPU和电力的燃烧。行业内估测，部分核心模型的单次标准对话成本也比两年前翻了好几倍；如果再把HBM和高端GPU不断涨价算上，全链条的基础设施成本正在不可逆地往上狂飙。

资本故事进入2026新阶段，投资者再也不是“为AGI信仰买单”了。红利期和流量圈地之后，考验的不再是智商和参数规模，而是算力单位经济学——你得证明每块钱投进GPU里，能得到可预测的经常性收入。

再直白点说，最好的算力不再是公共资源，谁付钱谁决定智能质量。这预示着未来的AI应用：免费的味道会越来越淡，一大部分能力将根据你的付费分层来供应。

🛡️ 04 监管加速织网：从“有规定”迈入“查落实”

当AI的边界被讨论得热火朝天，全国范围内，“清朗·整治AI应用乱象”专项行动已经开始前奏网。据中央网信办5月上旬通知，为期4个月的专项行动紧盯14类突出问题，分两个阶段推进。

第一阶段目前正在全国铺开：重点审查大模型的“应备未备”、安全审核、语料合规、内容标识、AI数据投毒等七类源头乱象。第二阶段则将扑向AI生成数字泔水、虚假不实、仿冒举报、暴力低俗和未成年人AI权益防御等更加恶劣的末端。

与之前“打一个喷嚏一个警告不同”的是，这一次监管用词换成了“专项行动、督导整改、挂牌督办”，力度明显上了几个台阶。第三方的全国首部AI产品合规标准、合规自查清单、安全评估机制也将在不久后面向全行业铺开，让大厂与创新团队头上的“合规紧箍咒”一天比一天严苛。

可见，AI技术赛道的下半场，不只是参数的晋级，还有法网扎紧实锤。

📌 今日小结

今天这三条消息，其实串起了一个完整的链条：

AI的能力边界——ProgramBench用248853项测试告诉大家，AI写代码强，但完整软件还很远，不过目标已经摆在台面上了；
竞争新变量——Grok Build泄露，说明编程Agent赛道马上要迎来一位被低估的搅局者；
商业化拐点——豆包开始收“算力税”，大模型的商业模式从“免费圈地”转向“按效付费”；
监管基调收紧——清朗行动从“有规定”迈向“查落实”，合规变成生存底线而非备选项。

算力的车轮轰隆隆往前碾，有人承担更多推理成本，有人卡住算力高地，还有人靠裸测翻车反思AI到底能干啥——“全能神”的故事已经被新商业逻辑重构。谁能在能力边界、成本结构和合规准入三者之间找到平衡，谁才有资格活到下一集。

💬 你愿意为优质的AI推理和服务额外付费吗？如何看待Grok在大模型激烈内卷中的定位？以及——今天你准备用AI来帮自己干点什么实用的事情了吗？留言区聊聊，说不定我和读者们还能帮你提炼出最佳提示词！