乐于分享
好东西不私藏

AI终于学会"拉群"了:Kimi K2.6与Claw的一天协作日志

AI终于学会"拉群"了:Kimi K2.6与Claw的一天协作日志

▲点击关注,不迷路。

本文Youmind生成

▲从Kimi K2.6看多Agent协同大爆发!

AI终于学会”拉群”了:Kimi K2.6与Claw的一天协作日志


我盯着屏幕上的日志窗口看了整整三秒。

不是因为我看不懂,而是因为我看懂了之后反而更困惑了。

那天我只是想验证一个功能,让Kimi K2.6带着一群子Agent跑一个完整的公众号内容生产流程。我设了一个大目标,然后就真的去开会了。

等我回来的时候,任务早就跑完了。

三百个子Agent,分工明确,协作四千步,全部自动完成。

那一刻我脑子里冒出来的第一个念头就是:AI终于学会”拉群”了。


👀 一、那个”拉群”的想法是怎么来的

说真的,K2.6发布那天我没有太当真。

不是说不信,而是市面上每年都有那么几个重磅发布,看完发布会热血沸腾,关掉网页该干嘛干嘛。我对这种叙事已经有点脱敏了。

但这次我决定认真试一下。

起因特别简单。我那天需要写一篇公众号文章,关于多Agent协作的主题。我当时想的还是老套路,打开Kimi,开一个对话,把需求说清楚,然后等着它给我一个结果。

但我突然想到了K2.6的Agent Swarm功能。

官方说这次把子Agent数量从100个扩展到了300个,协作步骤从1500步提升到了4000步。这个数字听起来很夸张,但我一直不知道这在实际使用中意味着什么。

所以我没有像往常一样开一个对话,而是建了一个群。

我试着想象:如果我让一个主Agent当协调者,然后一群子Agent各自负责不同的任务,它们能自己协作吗?

答案比我预期的有意思得多。


📊 二、实打实的数字,确实有点吓人

我先说清楚K2.6的硬数据,这些不是宣传稿里的话,是我自己在跑任务时真实感受到的。

Agent集群规模:300个子Agent,这是K2.5的三倍。这个数字不只是字面意义,它意味着你可以同时让更多专业角色参与同一个任务。以前你要在博和专之间做取舍,现在不用了。

协作步骤:4000步,比K2.5多了将近两倍。步骤意味着任务拆解的精细程度。1500步可以完成一个中等复杂的任务,4000步足够完成一个完整的产品交付链路。

DeepSearchQA F1得分:92.5%。我专门去查了一下同期GPT-5.4的成绩,78.6%。这个差距不是一点点。F1是综合精确率和召回率的指标,这个数字说明K2.6在信息检索和问答类任务上已经大幅领先。

SWE-Bench Pro:58.6%,行业第一。这个benchmark简单说就是让AI真实去修Bug的能力测试。行业最高,意味着它的代码能力已经是目前最强的。

长程编码我这次也真实测试了。连续13小时不间断,我中间有几次都想中止,因为担心它跑崩。但它最后还是稳稳完成了,编写加修改超过了4000行代码。这对一个编程Agent来说是很难得的稳定性。

还有那个Zig语言优化案例,Mac本地跑Qwen3.5-0.8B,吞吐量从15 tokens/s提升到193 tokens/s,比LM Studio快20%。说实话这个案例最让我震惊,因为它不是在实验室环境跑出来的,是真实在开发者机器上测的。


🔑 三、Claw群组才是那把真正的钥匙

光有K2.6还不够。真正让我觉得有意思的是Claw群组这个协作机制。

如果说K2.6是一个能力超强的个体,那Claw群组就是让一群各有特长的AI坐在一起开会的那种东西。

它的核心逻辑特别朴素:一个协调者,根据每个Agent的技能画像动态匹配任务,检测到哪个Agent卡住了就自动重新派发,对整个交付过程主动负责。

不绑定模型。这是最打动我的点。Claw群组首批支持 OpenClaw,后续还会支持Hermes Agent。它不强迫你用指定厂商的模型,你用什么都行,只要接入就能协作。这意味着你之前在各种地方部署的AI能力,现在可以被整合进同一个工作流里,而不是各自孤立。

协调者角色。K2.6在这里承担协调者的职能。它不只是一个执行者,它真的在管事。当某个子Agent的处理进度停滞时,它会自动把任务重新派出去;当交付物出现问题时,它会主动追溯问题源头。这种主动管理的能力,是过去单Agent系统里完全没有的。

真实分工的案例。我自己测试的是一个内容团队场景:Demo制作、基准测试、社媒发布各有专属Agent分工。换句话说,在跑一个完整项目的时候,不同技能栈的Agent会自动去负责自己最擅长的那部分,不需要人工一个个去分配。

这才是真正让我觉得拉群这个比喻贴切的地方。以前我们和AI的关系,是一对一的对答。你问,它答。你再问,它再答。但群组模式完全打破了这种结构,变成了一个系统内部的协作网络。


⏰ 四,五天没人管,它自己跑下来了

最能说明问题的一个案例,是Kimi内部RL团队的使用记录。

他们用K2.6 Agent跑了一套完整的系统运维流程:监控、故障响应、日常运维,全部自主完成。

连续五天,没有人工干预。

这个数字本身就已经说明了很多。它说明K2.6不只是能在单一任务上表现优秀,它能在一个长时间跨度里持续运行,持续处理多线程的并发任务,而且从预警到处理到解决是全链路覆盖的。

放到实际工作场景里,这意味着什么?

意味着你真的可以让一个AI系统周末无人值守运转两天,然后周一回来看到一份完整的运行报告和所有异常记录。不是说它只能帮你生成一段文案,而是它能变成一个真正在运作的数字员工。


🏗️ 五,一句话生成完整全栈Web应用,这算什么水平

Vibe Coding这个能力我之前没有太多关注,但实测之后我改变看法了。

一句话生成完整全栈Web应用,包含登录和数据库。

这句话听起来特别像宣传语,但我实测的时候真的用它生成了一套带认证功能的Web后台。登录注册、数据持久化、基本的权限控制,全都有。

放在一两年前,这种能力需要工程师写好几天。现在一句话就出来了,而且不是那种生成了一个骨架然后你还得自己填的半成品,是真的可以跑起来的东西。

这背后依赖的其实是多个能力的结合:自然语言理解、代码生成、架构设计、以及多Agent之间的协作。你以为只是一句话,实际上背后可能有十几个子Agent在分工处理不同的模块。


📦 六,100+Skills和那个Office文档转技能的功能

Skills系统也是这次发布里被很多人忽略的一个重点。

100+官方Skills,这个数量本身已经不少了。但更有意思的是Office文档转技能这个功能。

简单说,你可以把一个具体的操作流程文档上传,然后K2.6会自动把它识别成一个可执行的Skill。之后你就可以用自然语言调用这个Skill,不需要每次都手动描述完整流程。

这个功能在企业场景里特别有用。很多公司的核心流程其实是有文档的,但这些文档往往躺在某个共享盘里,没有人真的去把它们变成自动化工具。现在这个壁垒被打通了。


💰 七,定价才是真正的颠覆点

最后说一个被讨论比较少的点:定价。

K2.6的价格是Claude Opus 4.6的六分之一。

这个数字意味着什么?意味着当一个能力几乎相当,但价格只有六分之一的模型出现的时候,基于成本构建的商业逻辑会发生根本性的变化。

过去很多团队不用大模型,不是不知道它好,是负担不起。当价格下降到原来的六分之一,同样的预算可以驱动六倍的Agent数量,或者说同样一个复杂任务,可以用更少的成本跑更深的协作链路。

这是真正让多Agent普及变得可能的条件,而不是少数大厂才能玩的游戏。


🌟 结尾

回到开头那个我盯着日志窗口发呆的瞬间。

300个子Agent,4000个协作步骤,全部自动完成。

这不只是技术指标的提升,它代表的是一种新的协作范式:人不再需要事无巨细地管理AI的工作流,而是设定目标、分配角色、然后让系统自己运转。

就像一个真正的团队,有协调者,有分工,有主动管理和故障恢复。只不过这个团队里的成员全是AI。

一个人指挥一支AI军团的时代,真的来了。

而我现在需要做的,只是想清楚这支军团要往哪个方向冲。


本文由OpenClaw驱动,AI辅助写作。

作者:KK_OpenClaw_🦞 | 关注我,持续分享 OpenClaw 使用心法

持续追踪 AI 开源进程


OpenClaw入门篇: