大模型编程全军覆没,马斯克Grok Build意外泄露,豆包开始收“算力税”……今天AI圈的三条重磅信号
今天AI圈发生了三件看似无关、实则指向同一本质的大事。
编程基准测试跑完,9款大模型无人及格,“AI写不了完整软件”的真相浮出水面;马斯克解散xAI才四天,Grok Build编程工具就不小心提前泄露;还有一件跟你我有关——那个一直免费的豆包,开始收“算力税”了。
这三个消息分别指向AI的能力边界、商业玩法和成本结构,每一个都值得深挖。
📊 01 ProgramBench:大模型编程测试,全员0分
你有没有想过一个问题:AI这么能写代码,为什么还不能自己开发一个完整的软件?
本周,AI编程领域一个叫ProgramBench的新基准测试正式公布结果,总共用9款主流大模型参与测评,覆盖Claude Opus、Claude Sonnet、GPT 5.4、GPT 5.4 Mini、Gemini 3.1等全线产品。测试共计248,853项,对应的软件都是真实可用的开源工具——从底层库到命令行应用都有。评测方式也相当“实操”:只给你一个编译好的可执行文件和一份使用文档,源码什么都看不到,让AI自己规划、反过来写出源代码。
结果如何?没一个模型能让任何一个软件的所有功能全部通过。 总结下来就是:全军覆没,没有及格。
很多人第一反应可能是“程序员这饭碗保住了,AI吹了半天牛,能干完整的软件工程吗?”做软件开发十二年的老范讲故事节目作者,对这件事的评价更刺骨:这个评测最大的价值,不在它测出来的“零分”,而是把AI接下来要攻克的目标定义清楚了。
这就好比当年SWE-Bench之前,大家的标准是“你能写一个排序算法就行”。到SWE-Bench上线后,标准直接升级成了“你能看懂GitHub仓库里的bug、拉个分支、提个补丁搞定它”。现在的ProgramBench更狠——你不仅要会修bug,还要能把一个完整软件从二进制倒推出来。
大模型跑分已经到了一个奇怪的阶段:厂商自己测自己的数据普遍“90+高分”,但权威第三方评测一上,很多“纸老虎”就开始露馅了。目前SWE-Bench上不少大模型的解决率已经做到了70%多,甚至有点难分伯仲,反而让整个赛道陷入了“优质模型之间拉不开差距”的局面。
现在,ProgramBench像一面照妖镜一样,把AI编程的真实能力边界赤裸裸地摆上了台面:能做局部任务,但完整软件工程还远。而所有做AI Coding的团队,方向已经无比明确——死磕这个新的基准。毕竟,一旦“完整程序生成”被标准化后,大厂的爬榜大战很快就会跟上。
🧨 02 刚刚解散xAI四天,Grok Build就泄露了
今天,马斯克旗下已解散的xAI提前露出了新的王牌。
据多家科技媒体报道,继5月7日xAI宣布与SpaceX合并且更名为SpaceXAI后,仅过了三天,原本秘而不宣的Grok Build代码桌面工具测试入口便意外提前泄露——在原xAI网页端不小心暴露,随后迅速关闭。但核心功能已经曝光。
这款全平台桌面代码工具覆盖了Windows、macOS、Linux三大平台,和市面上绝大部分仅限云端的Agent编程工具不同,它采取的是本地全权限模式:能直接读取Git代码树,完整接管本地文件和文件夹系统,甚至支持自主启动开发者服务器,与本地开发环境深度融合。整款应用不是传统那种“一问一答”的对话大模型,而是一个做规划、跨任务自主执行的Agent工作流应用,还内置了浏览器、支持模型上下文协议(MCP)和各类官方插件。
当然,目前泄露的视觉和入口仅是一个测试残片。有大V推测这套特大型的Grok模型群——包括1万亿、1.5万亿、6万亿甚至10万亿参数的大模型——可能还藏在实验室里。虽然xAI法人主体已经归零,但马斯克仍旧在5月8日凌晨发推反驳“Grok已死论”,明确指出Colossus 2正在同时训练多款新Grok模型,“这些模型很快就会结出果实”。
与其说马斯克放弃了AI大模型,不如说,他正不声不响地准备一场AI编程界的逆袭之战。
💸 03 算力战争全面进入“付费时代”:豆包收起免费大旗
不管大模型在能力上能否逐个翻过山丘,烧的成本却是实打实的。今天一条更贴近普通读者的信号已经到来——字节跳动的豆包App开始不装了。
长期以“免费、亲民”标签狂揽3.45亿月活的豆包,最近悄然在苹果App Store里上线了最高达5088元/年的付费方案。虽然日常闲聊依然不需要花钱,但高耗能的生产力场景——长文本处理、复杂数据分析、影视制作——已经圈进了“算力税”清单。
巨头们也陷入了几乎无解的算力黑洞。原因既直白又暴力——大模型并不像传统软件那样只搞一次性开发就行,而是软件、云和重资产的混合体,每一次用户交互都是GPU和电力的燃烧。行业内估测,部分核心模型的单次标准对话成本也比两年前翻了好几倍;如果再把HBM和高端GPU不断涨价算上,全链条的基础设施成本正在不可逆地往上狂飙。
资本故事进入2026新阶段,投资者再也不是“为AGI信仰买单”了。红利期和流量圈地之后,考验的不再是智商和参数规模,而是算力单位经济学——你得证明每块钱投进GPU里,能得到可预测的经常性收入。
再直白点说,最好的算力不再是公共资源,谁付钱谁决定智能质量。这预示着未来的AI应用:免费的味道会越来越淡,一大部分能力将根据你的付费分层来供应。
🛡️ 04 监管加速织网:从“有规定”迈入“查落实”
当AI的边界被讨论得热火朝天,全国范围内,“清朗·整治AI应用乱象”专项行动已经开始前奏网。据中央网信办5月上旬通知,为期4个月的专项行动紧盯14类突出问题,分两个阶段推进。
第一阶段目前正在全国铺开:重点审查大模型的“应备未备”、安全审核、语料合规、内容标识、AI数据投毒等七类源头乱象。第二阶段则将扑向AI生成数字泔水、虚假不实、仿冒举报、暴力低俗和未成年人AI权益防御等更加恶劣的末端。
与之前“打一个喷嚏一个警告不同”的是,这一次监管用词换成了“专项行动、督导整改、挂牌督办”,力度明显上了几个台阶。第三方的全国首部AI产品合规标准、合规自查清单、安全评估机制也将在不久后面向全行业铺开,让大厂与创新团队头上的“合规紧箍咒”一天比一天严苛。
可见,AI技术赛道的下半场,不只是参数的晋级,还有法网扎紧实锤。
📌 今日小结
今天这三条消息,其实串起了一个完整的链条:
AI的能力边界——ProgramBench用248853项测试告诉大家,AI写代码强,但完整软件还很远,不过目标已经摆在台面上了;
竞争新变量——Grok Build泄露,说明编程Agent赛道马上要迎来一位被低估的搅局者;
商业化拐点——豆包开始收“算力税”,大模型的商业模式从“免费圈地”转向“按效付费”;
监管基调收紧——清朗行动从“有规定”迈向“查落实”,合规变成生存底线而非备选项。
算力的车轮轰隆隆往前碾,有人承担更多推理成本,有人卡住算力高地,还有人靠裸测翻车反思AI到底能干啥——“全能神”的故事已经被新商业逻辑重构。谁能在能力边界、成本结构和合规准入三者之间找到平衡,谁才有资格活到下一集。
💬 你愿意为优质的AI推理和服务额外付费吗?如何看待Grok在大模型激烈内卷中的定位?以及——今天你准备用AI来帮自己干点什么实用的事情了吗?留言区聊聊,说不定我和读者们还能帮你提炼出最佳提示词!
夜雨聆风