从 Hy3 preview 看 AI 下半场:单位智能时代的一次工程答卷-夜雨聆风

从 Hy3 preview 看 AI 下半场:单位智能时代的一次工程答卷

未来博士 wepon 特约作者

腾讯刚刚发布并开源了 Hy3 preview 模型。如果你习惯盯着参数表打分，第一眼可能会觉得“没什么可说的”——295B 的 MoE 主力版本，在今天动辄被标注为“T 级参数”的行业叙事里，甚至谈不上抢眼。

但要读懂这次发布，需要先把时间拨回到 2025 年 4 月。

那时，还在 OpenAI 的姚顺雨发表了一篇引起行业广泛讨论的文章——The Second Half（《AI 下半场》）。他在文章里做了一个判断：AI 已经走到了“中场”。

姚顺雨的观点要点可以这样概括：过去数十年的研究玩法是“开发新方法 → 在 benchmark 上爬坡 → 构造更难的 benchmark → 再爬坡”——评估当然一直重要，但评估的主要任务是陪练，为方法服务，终极目标是让模型在既有考卷上分数更高。而他认为，现在这个关系要反过来：下半场的核心不再是“同一张试卷上考得更高”，而是重新质疑“这张试卷是怎么设计的”——把评估从陪练位置，推到驱动位置。姚顺雨那句最重要的概括就是：“evaluation becomes more important than training”——不是说评估今天才开始重要，而是说它要从跟随方法创新的工具，变成倒逼方法创新的起点。

这个判断在当时并不算共识，但此后的一年里，它被几件事一件一件印证了：头部开源和闭源模型的能力差距肉眼可见地在缩小，“模型更强”能撬动的用户感知越来越小；Agent 应用爆发，把一个过去被忽视的变量——单位推理成本——推到了决定生死的位置；越来越多团队发现，在标准 benchmark 上领先的模型，放在真实业务里未必好用、甚至往往更贵。一句话总结：“benchmark 上的胜负”和“真实世界里的胜负”是两件事。

这一点，在最近 Hy3 preview 和 DeepSeek V4 几乎前后脚发布时，又被印证了一次。两家的路径并不完全一样：DeepSeek V4 用 Flash 和 Pro 两个版本覆盖不同层级的需求，Hy3 preview 则用一个不到 300B 的模型主动去找效果、速度、价格之间的平衡点；但它们指向的是同一个共识——在真实世界里，性价比正在变得比“性能最优”更重要。

Agent 的登场，把这套判断从一种预言推成了现实。ChatBot 时代一次对话只消耗几百到几千 token，单位成本是个次要问题；Agent 时代一次任务动辄几十万乃至上百万 token，单位成本就成了决定产业形态的结构性变量。一夜之间，整个行业被迫面对一个新的三角约束——质量、速度、价格，这三件事不可能同时做到极致。

然后，这个判断的提出者自己下场了。

姚顺雨加入腾讯、负责基模线之后交出的第一份作业，就是这次的 Hy3 preview。所以这次发布真正的看点，不在 benchmark 打到哪一档，而是——“下半场”判断的原始提出者，会用什么样的模型设计、什么样的产品取舍、什么样的评估标准，来回应他自己提出的那套主张。换句话说：这是一次观点与实践的对齐，也是一次从想法到代码的自我兑现。

Agent 时代的“不可能三角”：

单位智能成为产业结构性变量

要理解这次自我兑现为什么重要，得先看清 Agent 时代给大模型施加的新约束。

最直接的感受，是成本。过去一年几乎每一家做 Agent 产品的公司，都被同一件事反复教育——模型能力本身已经不再是唯一瓶颈，真正的瓶颈是“能不能用得起”。AI IDE 也好、通用 Agent 也好，都不同程度暴露出高 token 成本带来的商业约束：Demo 阶段很炸裂，真要规模化部署时就被成本曲线按在地上反复摩擦。企业客户的 Agent 采购决策里，TCO（总拥有成本）正越来越接近第一决策维度。这就是为什么“单位智能成本”不再只是商业指标，而是产业结构性指标——它直接决定了哪些 Agent 应用能够存在、以什么形态存在、服务多大规模的用户。

但成本只是表象。再往下一层，真正决定产品形态的，是一个经典的不可能三角——质量、速度、价格。只做质量：最大参数、最长推理链，结果是速度慢、价格贵，以至于几乎不可用，定位注定小众高端；只做速度：蒸馏小模型，结果是质量崩塌，只能做最简单的任务；只做价格：MoE 激进稀疏比、激进量化、批量调度，结果是首 token 延迟拉长、特定任务质量下降，不适合交互式 Agent。真正的产品化模型，必须在三角里主动选择一个平衡点，并让它与目标业务场景精确匹配。这是一门“平衡艺术”——不是做得最好，而是做得最合适。

更关键的是，在三角之上，Agent 时代的工作流本身也在分化成两类完全不同的需求：

● 复杂推理：长链路思考、多步规划、严谨论证的任务，比如代码调试、数学证明、科研写作、战略分析。对质量极其敏感，少数关键调用的正确与否直接决定产出价值；token 消耗相对集中、可控，用户愿意为单次高质量答案付高价。

● 日常 Agent 任务：识别、整理、抽取、改写、润色、翻译、结构化、长文生成、Tool Use 样板调度、RAG 里的摘要和改写等等。这类任务单次价值低、但品类极散、调用量极大——是 Agent 产品里真正的 token 消耗大头；对质量只要“够用就好”，但对速度和价格极其敏感——任何一点成本超支，乘以调用量都是账单上的大窟窿。

复杂推理要的是“最强大脑”，日常任务要的是“最合适的劳动力”。两件事在不可能三角上是往相反方向拉的，同一个模型很难同时做好。这也是为什么“一个模型打天下”的逻辑正在失效——未来的 AI 工作流，本质上是复杂推理模型和日常任务模型的分工协作。

从 Hy3 preview 的参数规格和试用体验反推，它选的平衡点非常清晰——明确站在“日常任务 + 结构化产物”这一侧，而不是去抢“复杂推理冠军”。质量上进入可用区但不追求 SOTA，目标是“在大多数真实业务分布下够用”；速度上 MoE 架构保证激活参数远小于总参数，首 token 延迟和吞吐对高频调用友好；价格上把单位 token 成本压到腾讯量级业务可承受的区间。它不是为“炸榜”生的，也不是为“极限推理”生的，而是为日常 Agent 任务和规模化吞吐生的。

这个取舍和腾讯自身的业务组合高度契合。当大模型能力要塞进元宝、QQ、微信、腾讯会议、广告系统、游戏 NPC、企业协同——每一个都可能在一年内长出自己的 Agent 形态——腾讯真正需要的不是“最聪明的模型”，而是能把海量日常调用做得又快又便宜、同时稳定交付结构化产物的模型。Hy3 preview 表现出的速度优先、长文组织能力扎实这两个偏好，正好对应这套业务需求。它是一个“为在腾讯业务里长期服役”而生的模型。

把视角拉回产业，这其实也解答了“为榜单而生还是为使用而生”这个老问题：独立模型公司需要旗舰参数证明技术实力，而有海量业务场景的互联网巨头，更该问“什么样的模型规格，在 Agent 时代的单位经济上跑得通”——Hy3 preview 就是在回答这个问题。

如果把视野再拉宽一点，最近 DeepSeek V4 的发布其实也在说明同一件事。它没有把所有需求都压在一个模型上，而是用 Flash 和 Pro 两个版本去覆盖不同层级的调用场景；Hy3 preview 的路径则不同，它更像是试图用一个中型模型，把质量、速度、价格的平衡点尽量往中间推，从而在不做版本分层的前提下，独立承接尽可能多的场景需求。一个是双版本分层覆盖，一个是单模型找平衡点，路径不同，但都在回答同一个问题：什么样的模型形态，才能在真实业务里更大规模地跑起来。

说个亲身经历。最近我在业余时间做了一个开源项目 TeachAny，给 K12 家长和老师制作自适应课件。作为一个没有开发背景的人，我几乎完全依靠 AI 辅助，用两周业余时间搭起了一个从课件生成、知识组织到社区发布都能跑通的开源系统。它不是 demo，也不是几段 prompt 的拼装，而是已经形成内容生产、知识沉淀、课件展示和社区分享闭环的产品雏形。整个代码架构主要由一款海外头部模型实现——它确实够强、够聪明，但成本很快就成了瓶颈。项目里大量工作并不是“高智力”任务：把课标和教材 PDF 转成 Markdown、从知识点里抽取参考资料、做结构化整理——这些工作吞 token 的速度惊人。

后来 Hy3 preview 在 WorkBuddy 上线，我做了一件很简单的事：把“识别、整理、长文生成”，尤其是用 skill 大批量制作示范课程这类日常任务全部切到 Hy3 preview 上，把“核心架构、复杂推理”才留给那款海外模型。结果是——同样的任务量下，速度明显提升，token 消耗显著下降。这是个粗略对比、不是严谨评测，但体感极其鲜明：“切换模型以匹配任务”这件事，比单纯追求单模型能力更强，起到了决定性作用。

再把这个体感向前推一步：通过自动路由或手工切换，在”复杂推理旗舰模型”和”日常任务中型模型”之间分工协作，大概率会成为绝大多数 AI 工作流的基本方式。这早已不是“极客小技巧”——主流 AI IDE 已经在后台按任务复杂度自动分发模型；企业端的 Agent 平台几乎清一色内置了模型路由；连一些 C 端产品都在悄悄做“简单问题用便宜模型、复杂问题升级到旗舰模型”的默认策略。Hy3 preview 足够快、足够便宜，正卡在这一层里最刚需的位置。

“下半场”主张本身：

评估从陪练位变成驱动位

说回姚顺雨那套“下半场”主张——它是整篇文章的叙事锚点。

他做的最大贡献，是把行业从内循环的评估体系（自己定卷子、自己刷榜、自己比参数）里拉出来，指向一个外部坐标系：价值的真伪，要在真实问题、真实用户、真实商业环境里被验证。姚顺雨原文结尾的愿景也很清晰——前半场的玩家忙于解决电子游戏和考试，下半场的玩家则是用智能打造真正有用的产品，去建立价值数十亿甚至数万亿美元的公司。

这个主张不只是口号。在 Hy3 preview 发布前几个月，腾讯混元 Research 就悄悄交出了一份高度呼应的学术成果——2026 年初发布、由姚顺雨担任通讯作者的 CL-bench 论文。论文用一个接地气的比喻说清了同一件事：今天的前沿模型是“顶级的做题家”，能解奥数、能通过专业资格考试，但在真实工作里常常失败——因为它们依赖的是压缩进权重里的“死知识”，而真实世界里的人是实时从 context 里学习的。论文里最精彩的一句是：

竞争的焦点将从“谁能把模型训练得更好”，转向“谁能为任务提供最丰富、最相关的 context”。

这句话几乎就是“下半场”主张的产业化翻译。至此，一条时间线被串起来——理论（2025.4 姚顺雨《The Second Half》）→ 学术实证（2026.2 CL-bench）→ 工程兑现（2026.4 Hy3 preview）。

这条链还可以再往下走一步——走到用户侧。回头看 TeachAny：它本质上不是“代码生成器”，而是把课标、教材、教学方法这些 context 精心整理好，把学科教学法沉淀成一套可复用的 skill，再交给模型执行的系统。一位使用 WorkBuddy 的老师或家长，不需要懂 prompt 工程，只要选好教学对象和目标，TeachAny Skill 就会把对应的知识点 context、教学方法、音视频工具一并装配好，再用国产模型低成本生成一份真正可用的自适应课件。TeachAny 做的事，就是把“从参数推理者到 context 学习者”这句话翻译成普通用户能直接用上的产品形态。而 Hy3 preview 恰好是这条路径在模型层非常合适的选择——不是因为它最强，而是它的速度-成本平衡让“备好 context、打磨 skill、再选择合适的模型”这件事开始具备规模化可行性。

姚顺雨提出的是原始判断，这一年里行业在这个框架下做了很多延展——大致可以归为四条共识：一是评估体系的重构，从他共同作者的 SWE-bench（2023）、第一作者的 τ-bench（2024），到他在腾讯主导的 CL-bench（2026），都是在回答“新的评估标准长什么样”；二是 Harness（脚手架）能力的崛起——Tool Use、上下文工程、多步规划、缓存复用、与业务系统的打通。Harness 的本质是用工程手段把不可能三角的平衡点外推——同质量下压成本、同成本下顶质量，一个能力 80 分的模型配一套 90 分的 Harness，综合表现可以碾压一个 95 分但只有裸 API 的竞品；三是工程闭环能力，训练、推理、调度、评测、上线回流每一环的成熟度，直接决定迭代速度；四是产品与场景落地能力——模型放在 API 里和放在 QQ、微信里是两回事，后者需要“好用、稳定、合规、可监测、可算账”，这是互联网公司的传统优势。

姚顺雨指出方向，行业补上方向上的能力——两件事不矛盾，是递进关系。

过去两年独立模型公司有个天然优势——聚焦。不考虑业务落地，可以把 100% 资源压在模型本身。但当行业进入 Agent 驱动的下半场，聚焦的优势在削弱，全栈的优势在放大。原因很朴素：下半场的核心问题（什么问题值得被解决、评估标准怎么在真实业务里长出来），恰好是独立模型公司最缺资源、大厂最有禀赋的地方。一家拥有游戏、社交、广告、企业协同、内容平台的巨头，天然就有“真实问题的样本库”——它最大的挑战不是找问题，而是把这些问题精准翻译成模型的训练目标和评估目标。

Hy3 preview 选择在此时用“务实主义”作宣发基调，本质是对自身禀赋的重新定价——不再用独立模型公司的语言讲故事，而是用一家“拥有中国最大业务出口之一、且正在批量孵化 Agent 形态的互联网巨头”的语言讲故事。“下半场”判断是姚顺雨的外部表达，CL-bench 是腾讯内部的学术实证，Hy3 preview 的定位方式，是同一套逻辑在工程层面的第三次展开，并共同指向同一件事。

“过程版本”背后：

组织效率是算力之外的第二杠杆

还有一个数字值得被单独拎出来讲：从架构调整到版本交付，整个过程不到 3 个月。作为对照，海外头部开源模型主版本迭代通常 6 到 12 个月，独立模型公司 4 到 8 个月，大厂模型部门因协同成本高，传统周期往往超过 6 个月。3 个月能把一个这种量级的 MoE 模型从架构调整推进到可发布状态，这不是“模型能力”层面的事，而是组织和工程效率层面的事。

从公开信息综合看，腾讯基模线这一轮变化至少做了三件事。一是引入外部顶尖人才，重塑技术判断力——姚顺雨加入后第一件事就是重新评估技术路线、快速做减法；对过去几年业务线繁杂、技术路径分叉较多的大厂模型团队，这种“从外部带来的清晰判断”有时候比内部共识更高效。二是扁平化管理，缩短决策链条——传统大厂模型团队最大的效率损耗不在算法，而在层层审批和多方协同；扁平化后，资源权限清晰、决策链条变短，工程师能把精力真正花在模型上。三是模型与产品“背靠背协作”——这是看似简单但极难做到的组织模式：过去是产品等模型交付、模型按节奏训练、产品拿到后再做适配；背靠背协作意味着产品需求提前反向嵌入到训练目标，模型能力迭代直接对齐产品 KPI，中间不再有长达数月的“等待窗口”。

要承认一个现实——当前阶段国内所有大模型团队都在和算力短缺搏斗，这不是腾讯独有的问题，是整个中国 AI 产业的结构性约束。算力受限的前提下，组织效率就是第二条杠杆：同样的卡，快 3 个月迭代一次，就意味着一年多跑 1-2 个版本、更多实验、更丰富的训练信号、更快的错误纠正。这也是为什么“过程版本”这个说法值得被认真对待而不是被解读为“不成熟”——在大模型这个领域，“能快速迭代的过程版本” > “等 12 个月才出来的完美版本”，几乎是一条已经被反复验证的规律。

非 AI 原生互联网公司的路径选择

讨论中国大模型产业，还有一个常被忽略的结构性事实：头部互联网公司并不是 AI 原生公司。它们的基因在产品、搜广推、社交、电商——在此之上积累的，是围绕具体业务目标的数据体系、特征工程、排序召回模型和在线反馈闭环。这套积累让它们对“真实业务里的 AI”并不陌生，但它解决不了大模型时代的两个新问题——模型的方法论怎么跑通、支撑它的基础设施怎么规模化。换句话说，这些公司不是“从零做 AI”，而是带着一身搜广推经验入场，再补大模型专属的两门课。

第一门课，大模型方法论验证：先用中等规模模型把预训练、后训练、对齐、评测等方法跑通，证明团队知道大模型该怎么训、怎么评、怎么调。这是从“业务算法思维”切到“foundation model 思维”的关键一跃。

第二门课，基建与规模化：把算力调度、数据治理、训练平台、推理服务、评测体系和组织机制做成可持续的工业能力，让更大模型、更多业务接入能真正跑起来。这一步决定的不是“能不能训出一个好模型”，而是“能不能持续运转训练-推理闭环”。

从外部观察，腾讯在 Hy3 这一代上没有按部就班先验证再规模化，而是把两门课并行推进。代价是短期技术风险更高、整合难度更大；收益是一旦跑通，会把原本 12-18 个月的传统路径压缩到 3-6 个月。每个版本都不是最终形态，但每个版本都在真实业务场景里拿到数据、迭代能力、修正方向。这条路对不对？行业里两派意见都有：支持派认为这是大厂唯一能追赶的方式，谨慎派认为工程和算法不解耦会积累技术债。答案需要时间回答。

几个必要的冷静判断

作为中立观察者，也需要回到几个冷静的判断上。

第一，Hy3 preview 不会是能力意义上的行业第一。对比头部闭源旗舰，长文本、复杂推理等能力上仍有差距——承认这点比回避更有说服力。但这篇文章讨论的，本来就不是”谁是第一”。

第二，算力短板在短期内无法解决。这不是腾讯的问题，是整个中国 AI 产业的问题。Hy3 短期内的业务覆盖面会被算力供给牵制；但恰恰因为算力紧张，单位智能成本的议题才更显紧迫——没人比受算力约束的团队更懂“把一张卡用到极致”意味着什么。

第三，“平衡艺术”路线需要时间验证。这条叙事短期不如“参数最大、榜单最高”打动人，它需要在未来 6-12 个月里用真实业务数据——Agent 任务完成率、单任务成本、用户留存、企业客户转化——来回答“三角平衡点有没有选对”。真正的考验是下一代版本能不能把质量往上推一格，同时把成本再压一格。

结语：一次观点与实践的对齐

行业这两年见过太多“参数奇袭”的模型发布，见过太多“榜单屠榜”的一夜刷屏，也见过太多发布会后产品沉寂的案例。

但很少见到这样一次发布——一个曾经对行业方向做出清晰判断的人，在加入一家大厂之后，用自己的手交出一份与那套判断高度对齐的答卷，构成一条完整的“理论 → 学术实证 → 工程兑现 → 用户应用”闭环。

更重要的是另一件事——2026 年 AI 产业最主要的推动力，可能正在从实验室、从头部模型公司、从极客圈子，下沉到无数个“普通人用 WorkBuddy 这类工具、配合国产模型完成日常工作”的真实场景里。一位不会写代码的老师用 TeachAny Skill 做出一门课、一位小商家让 Agent 帮他处理客诉和订单——这些看似微不足道的日常使用，正以惊人的速度积累出真实的使用数据、产品反馈和商业价值。过去几年“AI 由少数顶级模型推动”的叙事，正在被“AI 由无数真实工作流推动”的叙事取代。一旦这件事发生，决定下一代 AI 产品形态的，不再是模型能做到什么，而是普通人用起来方不方便、便不便宜、稳不稳定。在这个意义上，一个速度快、成本低、能长期稳定服役的国产中型模型，战略价值比任何一个 benchmark 冠军都更持久。Hy3 preview 要抓住的，正是这个发生在大众层面的巨大机会。

一个判断最好的自证方式，是提出它的人亲自把它做出来。 Hy3 preview，就是这样一次尝试。值得所有关心中国 AI 产业的人，在未来持续观察。

推荐阅读

闫德利：《人工智能的生产率悖论》

王鹏：《AI时代，教育何往？》

👇 点个“在看”分享洞见