Kimi K2.6:AI编程进入无人值守时代?
前天晚上,我在Twitter上刷到一条帖子。Moonshot AI的人发了个截图,一个AI agent跑了整整12个小时,4千步,一个程序员都没碰过。
我当时就愣住了。
然后我又看了一遍那个数字,12个小时。不是那种「挂着让它跑一晚上」的12小时,是AI自己在那边协调300个sub-agents,像一个真正的工程团队一样在写代码、在跑测试、在部署。
我靠,这么猛的吗。
说实话,我第一反应是有点懵的。不是那种「哇太强了」的懵,是那种「所以我还能干啥」的懵。。
然后我去翻了一下这个Kimi K2.6到底是个什么东西。官方说是4月21日GA的,发布在kimi-k2.org上。我看了半天产品页面的介绍,又去搜了一些开发者的反馈。
整个事情比我想象的还要离谱一点。
先说这个数字,12小时自主运行。翻译成人话就是,你早上上班前给它一个任务,比如说「把这个模块重构一下,明天上线」,然后你去开会、吃饭、摸鱼,下午回来的时候它已经把代码写好了、测试跑过了、PR也提了。这不是那种「跑了12个小时结果最后崩了」的故事,是真的4千步全部跑完。
怎么做到的?核心是这个300个agents的蜂群协同。
这个概念听起来很玄乎,但我换一个说法你可能就懂了。以前我们让AI写代码,一般是「给一个prompt,等一个结果」。K2.6的玩法更像是「你是一个PM,你手下有300个工程师,你只要管着他们别打架就行」。
300个agents,每个都有自己的任务和职责。有些在写业务逻辑,有些在写测试用例,有些在优化性能,有些在跑CI/CD。他们之间会通信、会协调、会互相review代码。遇到了一个技术难点,10个agents同时想方案,最后投票选一个最优解继续往下走。
整个过程不需要人介入。
262K的上下文窗口也是一个重点。官方说是auto-compression机制,翻译过来就是上下文满了会自动压缩历史,把不重要的信息删掉、保留关键的架构和进度信息。这解决了一个很现实的问题,AI coding session跑久了之后,上下文会越来越长,速度会越来越慢。K2.6在这个事情上做了一套自动化的管理机制,所以跑到第9个小时的时候速度和第1个小时差不了太多。
几个硬核实测数据直接说
SWE-Bench Pro 58.6%。这是目前编程任务评测的主流基准,K2.6跑出了接近60%的通过率,意味着你给它一个真实的生产级bug,它有六成概率自己修好。
Terminal-Bench 2.0 66.7%。这个benchmark更偏向终端操作场景,就是命令行里那些操作。66.7%意味着它可以相当程度地替代人类运维的工作。
MathVision 93.2%。这个分数有点炸裂,93%的视觉数学推理能力,配合Python工具使用,基本可以当一个可以「看图」的数学助手。
Vercel那边跑了个内部benchmark,Next.js全栈生成的效率提升超过50%。这里说的是你给它一个设计稿,它能给你吐出完整的可部署代码,而且这个代码在Vercel上直接能跑起来。
我看到这里的时候脑子里冒出来一个问题,这个东西到底谁来用?
个人开发者可能还好说,solo founder用一个K2.6,等于有了一个7×24小时在线的开发团队。这个叙事很美好。但问题在于,大多数个人开发者没有能力去管理一个300 agents的蜂群,你让一个不懂技术的人去用,他可能连怎么设计任务都设计不清楚。
真正被颠覆的可能还是中层的技术管理者。一个10人团队的技术lead,以前的工作是分配任务、review代码、盯着进度。有了K2.6之后,这套流程在相当程度上可以被自动化掉。那这个tech lead的价值在哪里?
我自己的感受是,这次不是AI辅助人类编程的故事了,这次是AI可以自主完成一个完整的工程任务。
这个区别很关键。辅助的意思是人在回路,AI在帮你写代码,但每一步都需要人确认。自主完成的意思是,你给目标,AI给你结果,过程你不需要管。
我不是程序员,但我认识很多程序员。他们中有一批人已经开始焦虑了,就是那种「我到底是会被取代还是会被解放」的焦虑。我问了一圈大家的反应,大概分三类。
第一类是真的很兴奋。他们觉得终于可以从CRUD boilerplate里解放出来了,以后只做架构设计和产品决策,具体代码都让AI去写。属于「被解放」派。
第二类是真的很慌。他们担心自己的价值在一个AI什么都能写的世界里会被稀释。哪怕AI写的代码还需要人review,这个review的工作量也会比亲手写要少很多。属于「被取代」派。
第三类是「关我屁事」派。他们觉得这东西吹的成分大,实际落地还有很远,先观望再说。
我觉得三类反应都合理。但有一点我想说的是,K2.6这次不是实验室数据,是GA了的production版本,而且Vercel和Factory.ai这种正经公司已经接进去跑了。
这不是可能要改变的故事,这是正在改变的故事。
不过话说回来,我特别想试一下的一个场景是这样的。我不知道你们的公司有没有这种情况,就是有时候一个遗留模块,谁都不想碰,代码烂到没人能看懂,业务逻辑复杂到没人能讲清楚。以前的解法是找个资深的人花两周时间啃下来,然后小心翼翼地改一点。
K2.6的12小时自主运行,意味着你可以把这个没人想碰的模块扔给它,让它自己啃,啃完了告诉你「我改了什么、为什么这么改、有什么风险点」。这个场景我真的很想试试。
回到开头那个问题,K2.6到底是个什么路数?
我觉得一个比较实在的答案是,它把AI写代码这件事从实验室里拽出来了。以前那些AI程序员的demo,大多数是精心挑选的好情况,真实场景跑两下就崩。K2.6这次是认真在推production场景的,有真实用户在跑,有真实部署数据。
这不是一个关于程序员会不会失业的讨论,这是一个关于一个程序员加上K2.6等于几个程序员的生产力换算。
至于这个换算的结果是什么,我还在想。但有一点我挺确定的,就是那些真正会用AI工具的程序员,会和不会用的之间的差距,会比我们想象的更快拉开。
好了,就说这么多。
图片
今天这篇没有彩蛋,没有总结,就是纯聊。看完觉得有点意思的话,点个赞或者在看吧,我们下次再见。
#科技 #AI #Kimi #大模型 #编程 #自动化
夜雨聆风