中国AI这周炸了:DeepSeek和Kimi又撞车,这次不一样-夜雨聆风

中国AI这周炸了:DeepSeek和Kimi又撞车,这次不一样

五一假期前，中国AI圈集体放大招。

DeepSeek V4、Kimi K2.6、Qwen新版本、小米、腾讯……几乎同一周，几家公司不约而同拿出了自己的最新作品。这不是巧合，更像是一场默契的”阅兵”。

最戏剧性的是DeepSeek和Kimi——两家万亿参数的开源模型，前后脚摆到了桌面上。

**这已经不是第一次撞车了。**

2025年1月，DeepSeek R1和Kimi K1.5前后两小时发布，都把目标指向OpenAI o1。

一个月后，DeepSeek NSA和Kimi MoBA几乎同时出现，都在改造Transformer的核心注意力机制。

2025年4月，Kimi的Kimina Prover和DeepSeek-Prover-V2先后发布，都在向形式化数学推理推进。

现在，又一次。Kimi K2.6和DeepSeek V4在同一周发布。

**为什么总是撞？**

不是它们太默契，是路太窄了。

万亿参数的MoE架构要做，长上下文的注意力机制要改，训练效率的优化器要换，国产芯片的适配要啃，开源要开得真诚。这些不是”选项”，是”必经之路”。

两家公司都在认真做底层技术，都选择把关键进展公开，于是总在同一个十字路口碰面。

—

DeepSeek V4：效率革命

DeepSeek V4是一个1.6万亿参数的MoE模型，49B激活参数，原生支持100万token上下文。

核心叙事就两个字：省钱。

相比上一代V3.2，单token推理算力需求下降73%，KV cache压缩到原来的十分之一。同样的硬件能处理多得多的请求，同样长度的文本花的钱少得多。

还有一个细节值得注意：V4完成了对华为昇腾芯片的深度适配，从英伟达CUDA生态向华为CANN架构做了底层代码迁移。这多了一层国产算力迁移的意味。

—

Kimi K2.6：持久战

Kimi K2.6是万亿参数的MoE多模态模型，32B激活参数，256K上下文。

核心叙事不是更大或更便宜，而是更持久。

测试中，K2.6可以不间断编码13小时，处理超过4000次工具调用，修改4000多行代码，完成一个接近性能极限的开源金融撮合引擎的深度重构。

这不是普通的”代码能力提升”，而是测试模型能不能从一次性回答，进入长时间、多工具、多Agent协作的工作状态。

K2.6还引入了Agent集群架构，支持300个子Agent并行协作。月之暗面的RL基础设施团队已经用K2.6驱动的Agent连续自主运行了5天，负责监控、故障响应和系统运维。

方向不同，但在同一周发布这件事本身，已经足够让人截图发群了。

—

技术栈的回声

比撞车更有意思的是，两家的技术路线正在相互启发。

上一次，是Kimi K2借鉴了DeepSeek V3带火的MLA注意力机制。MLA是一种压缩注意力计算和KV缓存的方案，DeepSeek V3让它成为中国开源模型技术栈里的显性选项。

这一次，是DeepSeek V4把Muon优化器作为模型架构层的三大更新之一。Muon是一种二阶优化器，解决的是训练阶段参数更新的效率和稳定性问题，用来取代已经用了10年的Adam。

Kimi是最早把Muon系优化器推到万亿参数级训练并系统公开经验的团队之一。V4跟进使用Muon优化器，用来提升收敛效率和训练稳定性。

MLA省的是推理时的钱，Muon省的是训练时的路。这两条路，已经在两家之间来回走了一遍。

这就让”撞车”不再只是发布时间上的巧合，而变成了技术栈层面的回声。更像是两家公司一边竞争，一边把对方探索过的技术思路变成自己下一轮实验的参考坐标。

—

硅谷在封闭，中国在开放

这件事之所以值得说，是因为放在更大的行业背景里看，它是反常的。

硅谷头部公司正在变得越来越封闭。OpenAI早已不再公开训练细节，Anthropic和Google的核心方法同样讳莫如深，社区只能靠猜测和拼凑来推断它们的技术路线。

而在Kimi和DeepSeek之间，技术报告和开源代码的可见度让技术扩散的链条明显缩短了。

中国开源模型的技术扩散速度，正在变得比过去快得多。

海外开发者社区也在用自己的方式确认这件事。K2.6发布后，AI领域最有影响力的newsletter之一Latent Space直接把Kimi放进了”DeepSeek沉默期后中国开源模型实验室领跑者”的位置。

几天后V4发布，海外开发者社区又立刻把V4、K2.6、GLM 5.1放到同一张表格里比较参数、价格、上下文长度和Agent能力。

英伟达GTC 2026上用来展示下一代芯片推理性能的中国模型，是这两家。

—

另一个战场：AI 3D先跑通了

这周还有一条新闻没那么热闹，但可能更重要。

Meshy，一家由清华姚班出身、MIT博士、Taichi编程语言作者胡渊鸣创立的3D AI公司，最新披露的年经常性收入（ARR）已经到4000万美元。

毛利85%，LTV/CAC大于4，一半以上的增长来自自然流量。月度收入增速长期保持在20%-30%。

放在这波AI应用公司里，这组数据算少见。

反常之处不只在增速，还在于它的毛利、自然流量占比、用户付费意愿，都更像一门已经跑了很多年的生意，而不是一家还在烧钱抢用户的AI公司。

为什么是它？

胡渊鸣讲过一个判断：没人会没事生成一个3D模型玩。普通人会因为好奇生成一张图、甚至做一段视频发朋友圈，但不会因为好奇生成一个3D模型。

来的用户要么是手里有3D打印机的maker，要么是做游戏需要资产的开发者，要么是做XR、做室内设计、做数字人的专业创作者。

他们打开产品是为了解决具体任务，不是打发时间。

增长曲线因此没有好奇心流量带来的虚胖，是稳步上升而不是暴涨暴跌。他们本身带着付费预期而来，原来花两周时间加1000美元找外包做一个模型，现在Meshy把这条路压缩到两分钟和1美元，付费意愿是自然发生的。

3D打印和AI 3D这两个赛道的问题，恰好在Meshy和拓竹的合作里互相解了一半。

消费级3D打印一直被内容供给卡着脖子。拓竹把打印机价格打到两三千块人民币之后，买回家的用户发现自己既不会用CAD也不会Blender，只能在官方素材库里挑别人做好的模型。

AI 3D这边反过来，一直在找可以真正落地、用户愿意付费的场景。在游戏引擎里被专业美术挑剔、在影视里被管线卡住，反而在3D打印这个门槛更低的消费场景里先跑通了。

低门槛、高可打印率的内容供给，和可验证、可付费的落地场景，两边的需求，第一次对上了。

—

Agent时代，什么才是护城河？

ThinkingAI（原数数科技）4月16日在硅谷山景城计算机历史博物馆办了一场发布会。

高盛的数据很刺眼：截至2025年，仅7%的企业完成了公司层面的AI全面整合。Agent层面更夸张——2026年3月的行业调研显示，78%的企业已启动AI Agent试点，但只有不到15%进入了生产环境。

卡在哪了？不是模型不够聪明。

当你问Agent”为什么这周留存掉了”，它大概率不知道”留存”在你的公司里按什么口径算——自然周还是运营周？注册还是首次付费？

这不是大模型能力的问题，是行业know-how的问题。靠prompt补不齐，靠fine-tune也很难覆盖。

ThinkingAI的底牌是时间。前身数数科技2015年成立，十一年服务了1500多家企业、8000多款产品。这十年积累的行业方法论，被转化成了100多个预置行业Skill。

模型会拉平，方法论不会。

模型能力正在快速commodity化——今天你能调的API，明天竞品也能调。Agent框架也在趋同，开源社区每周都在缩小架构差距。

但这恰恰是行业know-how变得值钱的原因。当构建技术本身不再构成壁垒，真正的护城河转移到了AI本身无法自动化的东西：行业方法论、客户业务口径的深度理解、以及十年服务积累的最佳实践。

OpenAI不会去学1500家游戏公司各自怎么算留存，Anthropic也不会。而一旦Agent吃透了一家企业的业务逻辑和分析框架，切换平台意味着从头再教一遍——没有运营总监愿意冒这个风险。

这有点像Bloomberg Terminal的逻辑：终端谁都能造，但四十年积累的金融数据分类体系才是壁垒。

—

写在最后

这周中国AI圈发生的事，放在一起看，有几个信号值得注意：

开源模型的中国力量正在崛起。从Artificial Analysis最新放榜的开源模型智能指数看，开源模型的前几名已经都是中国模型。TOP2都是这周发布的。

技术路线在收敛，但方向在分化。 DeepSeek和Kimi总在同一个路口相遇，但开出去的方向并不一样。一个在重写模型基础设施的成本结构，一个在验证模型能否进入更长周期的真实任务。

AI应用的商业模式开始跑通。 Meshy证明了在一个需求明确、付费意图稳定、工作流价值又能量化的赛道里，AI应用的确可以长成一门生意。

护城河正在转移。从模型能力转向行业方法论，从技术壁垒转向知识积累。模型参数可以买，行业方法论只能攒。

五一假期前这波”阅兵”，不是终点，是新一轮竞争的起点。

下一次”撞车”，大概已经在路上了。