SWE-Bench Pro衡量的是模型在真实代码库中修复问题的能力,Claude Opus 4.7以64.3%稳居第一
Kimi K2.6和GPT-5.5打成平手(58.6%),但Kimi的价格只有GPT-5.5的1/10
DeepSeek V4-Flash是GPT-5.5的1/100价格,适合能容忍质量换成本的场景
二、逐个拆解:每个模型最擅长什么
Claude Opus 4.7 —— 代码精密手术刀
Anthropic的旗舰模型。核心优势是理解整个代码库上下文后的精准编辑——不是从零写代码,而是在10万行项目中精确找到需要改的地方,改对,不引入新bug。SWE-Bench Pro 64.3%意味着它在真实世界的代码修改任务中失误率最低。如果你的项目涉及敏感逻辑(支付、认证、数据处理),它是目前最靠谱的选择。代价是贵:$5/$25的定价是四者中输出价第二高的。但贵在刀刃上,值在不出错上。
月之暗面的开源模型,4月20日发布。SWE-Bench Pro 58.6%追平GPT-5.5,但价格只有1/10。最大杀手锏是300个子Agent并行集群。它专门为长时间、多步骤的Agent任务训练,支持4000步以上的执行轨迹。一个Kimi K2.6可以同时派出多个子Agent,分别处理不同文件、不同模块。中文能力是开源模型中最强的,在中文代码注释、中英混杂场景下表现明显优于DeepSeek V4。如果你的团队在微信、飞书生态中工作,Kimi是首选。短板是256K上下文,在需要深度检索超长文档时不如1M上下文的对手。