4月8日,智谱发布GLM-5.1,开源,免费用。它做了一件别的模型都还没做到的事:给它一个任务,自己工作8小时,期间不用你管。同一天,它涨价了。
先说"8小时"是什么感觉
过去的AI,是"随问随答"的对话机器——你提问,它回答,你再问,它再答。最长的任务,大概是几分钟内生成一段代码。
GLM-5.1不是这样的。
智谱给它布置了一个任务:从零构建一个完整的Linux桌面系统。包括桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库……
全程没有人工干预。GLM-5.1自己执行了超过1200步操作,历时8小时,交付了一个可以实际运行的系统——外加4.8MB的配套文件。
这相当于一个4人团队一周的开发工作量,它一个人,8小时搞定了。
另一个更有意思的案例:向量数据库优化任务。GLM-5.1经过655次迭代,自主完成从全库扫描到提前剪枝的整套优化链条,把查询吞吐量从初始的3108 QPS提升至21472 QPS——提升近7倍,全程自己跑benchmark、分析日志、调整策略、重新测试,循环往复。
没有人告诉它下一步做什么。
跑分时代结束了
智谱在发布公告里说了一句很直白的话:
"过去两年,大模型行业用Benchmark衡量模型有多智能。下一阶段的衡量标准应该是——能工作多久。"
这不是智谱一家的判断。
2025年3月,全球顶尖AI安全研究机构METR提出了一个新指标——任务完成时间线(Task-Completion Time Horizon)。不再问模型答题准确率多高,而是问它能独立完成多长时间的人类专家任务。
研究显示:前沿模型的时间线,每7个月翻一倍。这条指数曲线被MIT Technology Review称为"AI领域最重要的一张图"。红杉资本直接宣告:这就是AGI的核心方向。
2023-2024年的AI,是只会说话的"talker";2026-2027年的AI,要成为能落地干活的"doer"。
GLM-5.1就是在这个坐标上,迈出了开源模型最远的一步。
跑分成绩怎么样?
成绩同样炸场。
在最接近真实软件开发场景的SWE-bench Pro基准测试中,GLM-5.1刷新全球最佳成绩,超越GPT-5.4和Claude Opus 4.6——拿了全球第一。
三项主要代码评测综合平均:全球模型第三,国产模型第一,开源模型第一。
海外开发者社区已经开始讨论"弃用Claude Max":
"它的手感和Opus一模一样,使用额度是Claude Code的3倍,成本却只有1/3。"
HuggingFace CEO也公开站台:SWE-Bench Pro中性能最强的模型,开源了。
发布同时,涨价了
这是整件事里最有意思的细节。
GLM-5.1发布的同一天,OpenRouter数据显示:智谱GLM再度提价10%。调价后,GLM-5.1在Coding场景的Token价格,已接近Anthropic旗下Claude Sonnet 4.6的水平。
这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。
一年前,国产大模型还在以降价90%以上的方式抢市场份额。现在智谱说:我的模型和Claude一个价,我觉得值。
市场用脚投票了——当天港股开盘,智谱股价一度暴涨近18%,触及925港元。
但这条路还很长
智谱自己也没有回避挑战。发布公告里写了四个仍未解决的问题:
如何克服模型面对复杂任务的"上下文焦虑";如何在数千次工具调用后保持执行的一致性;如何更早地跳出局部最优解;如何在没有明确数值指标的任务上建立可靠的自我评估机制。
最后一个问题是最难的。当任务没有标准答案,AI该怎么知道自己做好了?这不只是技术问题,几乎是哲学问题。
智谱的终极目标是:让模型7×24小时不间断地分解目标、执行交付、自我评价与纠正、自我进化——从此无需人类介入。
这个目标有多远?没有人知道。
但GLM-5.1的发布说明,至少8小时这个里程碑,今天到了。
"此刻,尝试给它一个指令,然后离开8小时。"
——智谱官方发布公告结语
当AI开始以"能干多久"来定义自己,这个行业真正变了。
关注公众号,获取最新 AI 资讯
夜雨聆风