AI打工人上线了:一个指令,它自己干够8小时

4月8日，智谱发布GLM-5.1，开源，免费用。它做了一件别的模型都还没做到的事：给它一个任务，自己工作8小时，期间不用你管。同一天，它涨价了。

先说"8小时"是什么感觉

过去的AI，是"随问随答"的对话机器——你提问，它回答，你再问，它再答。最长的任务，大概是几分钟内生成一段代码。

GLM-5.1不是这样的。

智谱给它布置了一个任务：从零构建一个完整的Linux桌面系统。包括桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库……

全程没有人工干预。GLM-5.1自己执行了超过1200步操作，历时8小时，交付了一个可以实际运行的系统——外加4.8MB的配套文件。

这相当于一个4人团队一周的开发工作量，它一个人，8小时搞定了。

另一个更有意思的案例：向量数据库优化任务。GLM-5.1经过655次迭代，自主完成从全库扫描到提前剪枝的整套优化链条，把查询吞吐量从初始的3108 QPS提升至21472 QPS——提升近7倍，全程自己跑benchmark、分析日志、调整策略、重新测试，循环往复。

没有人告诉它下一步做什么。

智谱在发布公告里说了一句很直白的话：

"过去两年，大模型行业用Benchmark衡量模型有多智能。下一阶段的衡量标准应该是——能工作多久。"

这不是智谱一家的判断。

2025年3月，全球顶尖AI安全研究机构METR提出了一个新指标——任务完成时间线（Task-Completion Time Horizon）。不再问模型答题准确率多高，而是问它能独立完成多长时间的人类专家任务。

研究显示：前沿模型的时间线，每7个月翻一倍。这条指数曲线被MIT Technology Review称为"AI领域最重要的一张图"。红杉资本直接宣告：这就是AGI的核心方向。

2023-2024年的AI，是只会说话的"talker"；2026-2027年的AI，要成为能落地干活的"doer"。

GLM-5.1就是在这个坐标上，迈出了开源模型最远的一步。

成绩同样炸场。

在最接近真实软件开发场景的SWE-bench Pro基准测试中，GLM-5.1刷新全球最佳成绩，超越GPT-5.4和Claude Opus 4.6——拿了全球第一。

三项主要代码评测综合平均：全球模型第三，国产模型第一，开源模型第一。

海外开发者社区已经开始讨论"弃用Claude Max"：

"它的手感和Opus一模一样，使用额度是Claude Code的3倍，成本却只有1/3。"

HuggingFace CEO也公开站台：SWE-Bench Pro中性能最强的模型，开源了。

这是整件事里最有意思的细节。

GLM-5.1发布的同一天，OpenRouter数据显示：智谱GLM再度提价10%。调价后，GLM-5.1在Coding场景的Token价格，已接近Anthropic旗下Claude Sonnet 4.6的水平。

这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

一年前，国产大模型还在以降价90%以上的方式抢市场份额。现在智谱说：我的模型和Claude一个价，我觉得值。

市场用脚投票了——当天港股开盘，智谱股价一度暴涨近18%，触及925港元。

智谱自己也没有回避挑战。发布公告里写了四个仍未解决的问题：

如何克服模型面对复杂任务的"上下文焦虑"；如何在数千次工具调用后保持执行的一致性；如何更早地跳出局部最优解；如何在没有明确数值指标的任务上建立可靠的自我评估机制。

最后一个问题是最难的。当任务没有标准答案，AI该怎么知道自己做好了？这不只是技术问题，几乎是哲学问题。

智谱的终极目标是：让模型7×24小时不间断地分解目标、执行交付、自我评价与纠正、自我进化——从此无需人类介入。

这个目标有多远？没有人知道。

但GLM-5.1的发布说明，至少8小时这个里程碑，今天到了。

"此刻，尝试给它一个指令，然后离开8小时。"
——智谱官方发布公告结语

当AI开始以"能干多久"来定义自己，这个行业真正变了。

关注公众号，获取最新 AI 资讯