AI Agent跑久了就「变笨」?智谱放出GLM-5.1:连跑8小时、600轮迭代不掉线,SWE-Bench Pro 58.4力压GPT-5.4!

导读
【导读】智谱刚刚开源了新一代旗舰模型GLM-5.1，主打「长周期Agent不掉线」。SWE-Bench Pro拿下58.4分登顶全球第一，力压GPT-5.4和Claude Opus 4.6。最狠的是，这个模型能连续自主运行8小时，跑完600多轮迭代、6000多次工具调用，性能还在往上涨。

「跑久变笨」，Agent时代最扎心的痛点

用过AI Agent写代码的人，大概都体验过这种抓狂场景：

刚开始，Agent表现惊艳，三下五除二搞定框架搭建。可一旦任务变复杂、对话轮次一多，它就开始「发呆」——翻来覆去用同一招，改了A坏了B，甚至把之前写好的代码搞崩。

你给它再多时间也没用。它已经「用完了所有招数」。

中文AI博主AIGCLINK把这个现象总结得很到位：

"之前的模型用完熟悉的招数后就会迅速停滞，给再多时间也没用。"

▲ AIGCLINK推文总结：GLM-5.1主打解决「Agent跑久变笨」问题（9.2K次查看）

这个问题在业内有个术语叫plateau（平台期）——模型在长任务中快速消耗已有策略后就陷入停滞，像一个只会三板斧的选手，招用完了就站在原地发愣。

智谱的官方博客直接把这个问题摆在了台面上：

"Previous models—including GLM-5—tend to exhaust their repertoire early: they apply familiar techniques for quick initial gains, then plateau. Giving them more time doesn't help."

「之前的模型——包括GLM-5——往往很快就用尽了它们的招数库：先用熟悉的技巧获得快速提升，然后就进入平台期。给再多时间也没用。」

这句话来自智谱自己的官方博客，连自家上一代产品都没放过。敢拿前代产品做反面教材，至少说明他们对这个问题是认真的。

SWE-Bench Pro 58.4，登顶全球第一

先看最硬的数据。

在当前最受关注的编码Agent评测SWE-Bench Pro上，GLM-5.1拿下了58.4分，直接登顶：

GLM-5.1：58.4
（第一）
GPT-5.4：57.7（第二）
Claude Opus 4.6：57.3（第三）
Qwen3.6-Plus：56.6
MiniMax M2.7：56.2

▲ Z.ai官方推文：GLM-5.1在SWE-Bench Pro上以58.4分登顶（15.3万次查看，881赞）

一个开源模型，在最权威的编码基准上超过了OpenAI和Anthropic的闭源旗舰。

这里要说清楚：58.4的领先幅度并不算大——只比GPT-5.4高了0.7分，比Opus 4.6高了1.1分。但在这个级别的竞争中，哪怕0.1分的差距背后都是海量的工程优化。

而且，如果看三大编码基准（SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo）的综合表现，排名又不一样了：

GPT-5.4：58.0
Claude Opus 4.6：57.5
GLM-5.1：54.9

▲ Z.ai官方主贴：综合三大编码基准，GLM-5.1排名全球第三、开源第一（283.2万次查看，9.3K赞）

所以准确地说：SWE-Bench Pro单项全球第一，综合编码全球第三，开源第一。

智谱官方也给出了同样的定位：「#1 in open source and #3 globally.」

这已经是中国AI公司在编码Agent领域做出的最好成绩之一了。

「越跑越强」：600轮迭代的硬核证据

说回核心卖点：为什么GLM-5.1能解决「跑久变笨」？

智谱在博客里用了一个非常简洁的表述：

"The longer it runs, the better the result."

「跑得越久，结果越好。」

为了证明这句话，他们给出了三个递进式的场景验证，一个比一个狠。

场景一：VectorDBBench——600轮迭代，6000次工具调用

这是一个向量数据库优化挑战。之前最好的成绩是Claude Opus 4.6在50轮tool call预算内做到的3,547 QPS。

智谱把GLM-5.1放进了一个外层优化循环：不限轮次，模型自己决定什么时候提交新版本、接下来试什么方向。

结果？600多轮迭代、6000多次工具调用后，GLM-5.1把QPS从3,547推到了21,500——翻了整整6倍。

▲ Z.ai官推：VectorDBBench场景下GLM-5.1实现6倍性能提升（5.6万次查看，397赞）

博客里那张迭代曲线图更有意思：性能提升呈现明显的「阶梯式」上涨。模型在一个策略内微调一段时间，然后突然切换到全新的架构思路，性能跳上一个台阶。

"Six such structural transitions occurred over the full run, each initiated by the model after analyzing its own benchmark logs and identifying the current bottleneck."

「整个过程中发生了6次这样的结构性转变，每一次都是模型自己分析了基准测试日志、找到当前瓶颈后主动发起的。」

关键词：主动切换策略。遇到瓶颈不死磕，自己分析日志，自己「换脑子」——这才是跟之前模型最大的区别。

场景二：KernelBench——1000多轮GPU优化

第二个场景是GPU kernel优化。这里智谱很诚实地给出了对比：

GLM-5.1最终达到3.6倍加速
Claude Opus 4.6达到4.2倍加速

没错，在这个任务上Opus 4.6仍然是最强的。但博客原文也指出，GLM-5.1相比自家前代GLM-5有了质的飞跃——GLM-5很早就plateau了，GLM-5.1在超过1000轮后还在持续优化。

这个诚实反而让人对整篇博客的可信度加分：不吹全面碾压，承认差距的同时展示真实进步。

场景三：8小时从零搭建Linux桌面环境

最后一个场景最有想象力：给GLM-5.1一个prompt，让它从零搭建一个Linux桌面环境的Web应用。没有starter code，没有设计稿，没有中间指导。

▲ Z.ai官推：GLM-5.1用8小时自主构建了一个完整的Linux桌面环境（9.7万次查看，985赞）

在self-review loop下连续运行8小时后，GLM-5.1从一个基础骨架逐步迭代出了完整的桌面系统——文件浏览器、终端、文本编辑器、系统监控、计算器、游戏，每个新功能都融入了统一的UI。

"By the end, the result is a complete, visually consistent desktop environment running in the browser."

「最终，结果是一个在浏览器中运行的完整、视觉一致的桌面环境。」

这个场景没有量化指标，完全靠模型自己判断「接下来该改什么」。在没有外部反馈的情况下还能持续自我优化8小时——这才是「长周期Agent」概念最有说服力的演示。

海外AI圈怎么看？

AI评论人Wes Roth在推文中给出了一个很精准的定性：

"Unlike standard conversational models, GLM-5.1 is specifically engineered for long-horizon, autonomous tasks. It is capable of running independently for up to 8 hours, utilizing self-review loops to refine strategies across thousands of iterations and tool calls."

「与标准对话模型不同，GLM-5.1专门为长周期自主任务而设计。它能够独立运行最长8小时，利用自我审阅循环在数千次迭代和工具调用中不断优化策略。」

▲ AI评论人Wes Roth总结GLM-5.1核心特点（1.5K次查看）

值得注意的是，GLM-5.1以MIT协议完全开源，权重已放上HuggingFace和ModelScope，并兼容Claude Code、OpenClaw等主流Agent框架。

对于开发者来说，这意味着你可以直接在现有的Agent工作流里接入这个模型，不用换框架。

「长周期Agent」时代来了？

GLM-5.1最值得关注的，是它提出了一个全新维度的竞争：给模型更多时间，它还能不能继续变好？

过去我们评估AI模型，看的是「单次回答有多准」。但在Agent时代，真正重要的问题变了：当任务需要跑几百轮、甚至跑8个小时的时候，你的模型还行不行？

智谱在博客结尾也很清醒地列出了未解难题：如何更早跳出局部最优？如何在数千轮工具调用中保持一致性？如何在没有量化指标的任务里做到可靠的自我评估？

这些问题，目前所有模型都还没完全解决。但至少GLM-5.1迈出了明确的一步——而且是以开源的方式。

SWE-Bench Pro全球第一、编码综合全球第三、开源第一。

一个来自中国的开源模型，在Agent编码的最前沿跟OpenAI和Anthropic掰手腕——这件事本身，就已经足够让人兴奋了。

— END —