我国 4 个 AI 实验室 12 天连续开源,Stanford 把"中美差距"压到了 2.7% —— 创业者该怎么选 ?
Part.01
-
Z.ai 的 GLM-5.1 —— 智谱(Zhipu)发布日股价收涨 15.92%,核心亮点是 agentic engineering 完整能力链
-
MiniMax M2.7 —— 发布同时展示了一段”模型自己优化自己 scaffold 的 100+ 轮内部跑分”演示
-
Moonshot Kimi K2.6 —— 同步公开了一段连续 12 小时使用工具把推理引擎移植到 Zig 语言的真实 trace
-
DeepSeek V4 —— 4 月 24 日发布 Preview。V4 Pro 版 1.6 万亿总参数 / 490 亿活跃参数(MoE 架构)+ 100 万 token 上下文,Apache 2.0 协议;V4 Flash 版 2840 亿 / 130 亿活跃参数
Part.02
-
一年前,中美前沿模型在 GPQA Diamond、SWE-bench Verified、Terminal-Bench 等核心 benchmark 上的差距还在 8-12 个百分点
-
截至 2026 年 3 月,Anthropic 顶级模型对中国顶级模型的领先优势缩窄到 2.7%
-
中美模型在前沿榜首多次易主,leaderboard 不再是单极结构
Part.03
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
-
Voice fidelity 不是 SWE-bench 能 capture 的维度。 前沿模型在情感细腻度、长上下文一致性、隐性指令跟随上仍领先。这部分对 To-C 关系层产品(陪伴、咨询、教育)是命脉。 -
合规 / 审查差异。 国内 LLM 内置内容审查,关系层敏感话题(情绪、亲密关系、个人困境)可能被 filter 或软化。To-C 心理 / 教育 / 医疗类产品要测一遍才知道边界。 -
Context 长度的”宣称”vs”实战”差异。 DeepSeek V4 100 万 token 上下文已经是行业 top 水平,但实战 long-context fidelity 仍要在自家 use case 里 benchmark 一遍。 -
同质化 moat 风险。 如果你和竞品都用 DeepSeek,model 层不再是差异化壁垒,moat 退到关系数据 + prompt 工程 + 用户网络效应。 -
工程兼容性成本。 OpenAI / Anthropic / Gemini 主流框架(LangChain / LlamaIndex / OpenAI-compatible API)对中国 LLM 接入需要 adapter 层,落地成本要算进 TCO。
Part.04
-
关系层:角色对话、心理咨询、情感陪伴、深度学习辅导、关系层决策对话
-
任务层:文档总结、数据处理、翻译、检索、代码生成、单一意图问答
-
关系层 voice fidelity = 用户留存命脉,不省这个钱
-
任务层规模化 = 成本敏感,这部分省下的 30-70% 推理成本可观
-
按 task 类型 / user mood / context length 分流
-
自家 daemon API 不绑死任一家,留好后路
-
To-C 涉及情绪 / 亲密关系 / 心理 / 医疗的产品,中国 LLM 用之前必须 stress-test 审查触发条件
-
审查触发 → fallback 到 frontier,要 baked-in,不是事后补丁
-
当 model 同质化,差异化退到关系数据沉淀 + prompt 工程 + 用户社区/网络效应
-
这部分恰恰是早期创业者最该建的护城河
Part.05
– Stanford HAI:AI Index Report 2026
– LLM Stats Leaderboard
– Air Street Capital:State of AI May 2026
– 各实验室官方 release notes
夜雨聆风