乐于分享
好东西不私藏

中国AI这周炸了:DeepSeek和Kimi又撞车,这次不一样

中国AI这周炸了:DeepSeek和Kimi又撞车,这次不一样

五一假期前,中国AI圈集体放大招。

DeepSeek V4、Kimi K2.6、Qwen新版本、小米、腾讯……几乎同一周,几家公司不约而同拿出了自己的最新作品。这不是巧合,更像是一场默契的”阅兵”。

最戏剧性的是DeepSeek和Kimi——两家万亿参数的开源模型,前后脚摆到了桌面上。

**这已经不是第一次撞车了。**

2025年1月,DeepSeek R1和Kimi K1.5前后两小时发布,都把目标指向OpenAI o1。

一个月后,DeepSeek NSA和Kimi MoBA几乎同时出现,都在改造Transformer的核心注意力机制。

2025年4月,Kimi的Kimina Prover和DeepSeek-Prover-V2先后发布,都在向形式化数学推理推进。

现在,又一次。Kimi K2.6和DeepSeek V4在同一周发布。

**为什么总是撞?**

不是它们太默契,是路太窄了。

万亿参数的MoE架构要做,长上下文的注意力机制要改,训练效率的优化器要换,国产芯片的适配要啃,开源要开得真诚。这些不是”选项”,是”必经之路”。

两家公司都在认真做底层技术,都选择把关键进展公开,于是总在同一个十字路口碰面。

DeepSeek V4:效率革命

DeepSeek V4是一个1.6万亿参数的MoE模型,49B激活参数,原生支持100万token上下文。

核心叙事就两个字:**省钱**。

相比上一代V3.2,单token推理算力需求下降73%,KV cache压缩到原来的十分之一。同样的硬件能处理多得多的请求,同样长度的文本花的钱少得多。

还有一个细节值得注意:V4完成了对华为昇腾芯片的深度适配,从英伟达CUDA生态向华为CANN架构做了底层代码迁移。这多了一层国产算力迁移的意味。

Kimi K2.6:持久战

Kimi K2.6是万亿参数的MoE多模态模型,32B激活参数,256K上下文。

核心叙事不是更大或更便宜,而是**更持久**。

测试中,K2.6可以不间断编码13小时,处理超过4000次工具调用,修改4000多行代码,完成一个接近性能极限的开源金融撮合引擎的深度重构。

这不是普通的”代码能力提升”,而是测试模型能不能从一次性回答,进入长时间、多工具、多Agent协作的工作状态。

K2.6还引入了Agent集群架构,支持300个子Agent并行协作。月之暗面的RL基础设施团队已经用K2.6驱动的Agent连续自主运行了5天,负责监控、故障响应和系统运维。

**方向不同,但在同一周发布这件事本身,已经足够让人截图发群了。**

技术栈的回声

比撞车更有意思的是,两家的技术路线正在相互启发。

上一次,是Kimi K2借鉴了DeepSeek V3带火的MLA注意力机制。MLA是一种压缩注意力计算和KV缓存的方案,DeepSeek V3让它成为中国开源模型技术栈里的显性选项。

这一次,是DeepSeek V4把Muon优化器作为模型架构层的三大更新之一。Muon是一种二阶优化器,解决的是训练阶段参数更新的效率和稳定性问题,用来取代已经用了10年的Adam。

Kimi是最早把Muon系优化器推到万亿参数级训练并系统公开经验的团队之一。V4跟进使用Muon优化器,用来提升收敛效率和训练稳定性。

**MLA省的是推理时的钱,Muon省的是训练时的路。这两条路,已经在两家之间来回走了一遍。**

这就让”撞车”不再只是发布时间上的巧合,而变成了技术栈层面的回声。更像是两家公司一边竞争,一边把对方探索过的技术思路变成自己下一轮实验的参考坐标。

硅谷在封闭,中国在开放

这件事之所以值得说,是因为放在更大的行业背景里看,它是反常的。

硅谷头部公司正在变得越来越封闭。OpenAI早已不再公开训练细节,Anthropic和Google的核心方法同样讳莫如深,社区只能靠猜测和拼凑来推断它们的技术路线。

而在Kimi和DeepSeek之间,技术报告和开源代码的可见度让技术扩散的链条明显缩短了。

**中国开源模型的技术扩散速度,正在变得比过去快得多。**

海外开发者社区也在用自己的方式确认这件事。K2.6发布后,AI领域最有影响力的newsletter之一Latent Space直接把Kimi放进了”DeepSeek沉默期后中国开源模型实验室领跑者”的位置。

几天后V4发布,海外开发者社区又立刻把V4、K2.6、GLM 5.1放到同一张表格里比较参数、价格、上下文长度和Agent能力。

英伟达GTC 2026上用来展示下一代芯片推理性能的中国模型,是这两家。

另一个战场:AI 3D先跑通了

这周还有一条新闻没那么热闹,但可能更重要。

Meshy,一家由清华姚班出身、MIT博士、Taichi编程语言作者胡渊鸣创立的3D AI公司,最新披露的年经常性收入(ARR)已经到4000万美元。

毛利85%,LTV/CAC大于4,一半以上的增长来自自然流量。月度收入增速长期保持在20%-30%。

**放在这波AI应用公司里,这组数据算少见。**

反常之处不只在增速,还在于它的毛利、自然流量占比、用户付费意愿,都更像一门已经跑了很多年的生意,而不是一家还在烧钱抢用户的AI公司。

为什么是它?

胡渊鸣讲过一个判断:没人会没事生成一个3D模型玩。普通人会因为好奇生成一张图、甚至做一段视频发朋友圈,但不会因为好奇生成一个3D模型。

来的用户要么是手里有3D打印机的maker,要么是做游戏需要资产的开发者,要么是做XR、做室内设计、做数字人的专业创作者。

**他们打开产品是为了解决具体任务,不是打发时间。**

增长曲线因此没有好奇心流量带来的虚胖,是稳步上升而不是暴涨暴跌。他们本身带着付费预期而来,原来花两周时间加1000美元找外包做一个模型,现在Meshy把这条路压缩到两分钟和1美元,付费意愿是自然发生的。

3D打印和AI 3D这两个赛道的问题,恰好在Meshy和拓竹的合作里互相解了一半。

消费级3D打印一直被内容供给卡着脖子。拓竹把打印机价格打到两三千块人民币之后,买回家的用户发现自己既不会用CAD也不会Blender,只能在官方素材库里挑别人做好的模型。

AI 3D这边反过来,一直在找可以真正落地、用户愿意付费的场景。在游戏引擎里被专业美术挑剔、在影视里被管线卡住,反而在3D打印这个门槛更低的消费场景里先跑通了。

**低门槛、高可打印率的内容供给,和可验证、可付费的落地场景,两边的需求,第一次对上了。**

Agent时代,什么才是护城河?

ThinkingAI(原数数科技)4月16日在硅谷山景城计算机历史博物馆办了一场发布会。

高盛的数据很刺眼:截至2025年,仅7%的企业完成了公司层面的AI全面整合。Agent层面更夸张——2026年3月的行业调研显示,78%的企业已启动AI Agent试点,但只有不到15%进入了生产环境。

**卡在哪了?不是模型不够聪明。**

当你问Agent”为什么这周留存掉了”,它大概率不知道”留存”在你的公司里按什么口径算——自然周还是运营周?注册还是首次付费?

这不是大模型能力的问题,是行业know-how的问题。靠prompt补不齐,靠fine-tune也很难覆盖。

ThinkingAI的底牌是时间。前身数数科技2015年成立,十一年服务了1500多家企业、8000多款产品。这十年积累的行业方法论,被转化成了100多个预置行业Skill。

**模型会拉平,方法论不会。**

模型能力正在快速commodity化——今天你能调的API,明天竞品也能调。Agent框架也在趋同,开源社区每周都在缩小架构差距。

但这恰恰是行业know-how变得值钱的原因。当构建技术本身不再构成壁垒,真正的护城河转移到了AI本身无法自动化的东西:行业方法论、客户业务口径的深度理解、以及十年服务积累的最佳实践。

OpenAI不会去学1500家游戏公司各自怎么算留存,Anthropic也不会。而一旦Agent吃透了一家企业的业务逻辑和分析框架,切换平台意味着从头再教一遍——没有运营总监愿意冒这个风险。

**这有点像Bloomberg Terminal的逻辑:终端谁都能造,但四十年积累的金融数据分类体系才是壁垒。**

写在最后

这周中国AI圈发生的事,放在一起看,有几个信号值得注意:

**开源模型的中国力量正在崛起。** 从Artificial Analysis最新放榜的开源模型智能指数看,开源模型的前几名已经都是中国模型。TOP2都是这周发布的。

**技术路线在收敛,但方向在分化。** DeepSeek和Kimi总在同一个路口相遇,但开出去的方向并不一样。一个在重写模型基础设施的成本结构,一个在验证模型能否进入更长周期的真实任务。

**AI应用的商业模式开始跑通。** Meshy证明了在一个需求明确、付费意图稳定、工作流价值又能量化的赛道里,AI应用的确可以长成一门生意。

**护城河正在转移。** 从模型能力转向行业方法论,从技术壁垒转向知识积累。模型参数可以买,行业方法论只能攒。

五一假期前这波”阅兵”,不是终点,是新一轮竞争的起点。

下一次”撞车”,大概已经在路上了。