腾讯Hy3:让AI真正学会＂看文档干活＂

姚顺雨的上下文学习革命，直击大模型“学不会、用不对“的核心短板

当整个行业都在追逐Agent工具调用与代码跑分时，腾讯混元Hy3 preview选择了一条不同的路：它把“出色的上下文学习和指令遵循能力“写在能力清单的第一位。

这不是一次常规的性能迭代。作为腾讯混元推倒重建后的首个模型，Hy3 preview承载着28岁首席AI科学家姚顺雨的一个核心判断——当前大模型的核心短板不是“读不全、找不到“，而是“学不会、用不对、执行不了“。

换句话说，现在的模型更像一个只会背书的优等生，给足信息也未必能正确应用。Hy3要做的，是让模型从“做题家“进化成真正的“学习者“。

图1：AI模型从上下文中学习新知识

一场从“记忆“到“学习“的范式转变

传统大模型依赖“参数化知识“——那些在预训练阶段被压缩进模型权重的静态记忆。当模型面对新任务时，它更多是在调用这些封存的内部知识，而不是主动从当前输入的新信息中汲取营养。

姚顺雨在CL-bench论文中揭示了一个扎心的事实：即使是GPT-5.1这样的顶尖模型，在完全自包含的上下文任务中，成功率也只有23.7%。这解释了一个常见现象：文档给了、规则写了、流程清楚了，模型依然输出错误结果。

图2：模型从“做题家“到“学习者“的转变

Hy3 preview的设计就是要解决这个问题。它不满足于在上下文中检索信息，而是追求从中提取隐含规则并内化为稳定的执行逻辑。在姚顺雨自建的CL-bench评测中，Hy3得分26.7，相比前代提升39%。

495步任务链：稳定性背后的技术哲学

图3：495步复杂任务链的稳定执行

在腾讯内部的测试中，Hy3 preview已稳定驱动最长495步的复杂Agent工作流。这个数字的意义在于：如果模型在第50步就理解错了上下文，后面445步会全部偏离目标。

这背后体现的是姚顺雨一贯的技术思想。从博士阶段提出的ReAct框架，到自研的CL-bench评测，再到Hy3的设计原则，其脉络始终是让模型具备“现场学习“能力，从而适应真实世界的动态约束。

图4：姚顺雨技术思想的演进路径

Hy3没有追求单项能力刷榜，而是通过推理、长文、指令等能力的深度协同，实现生产环境下的体系化稳定。在CodeBuddy和WorkBuddy等产品中，Hy3的首token延迟降低54%，端到端时长降低47%，成功率提升至99.99%以上。

图5：Hy3已全面接入腾讯多个产品

Hy3 preview是一个295B总参数、21B激活参数的混合专家模型，支持256K上下文长度。这个尺寸选择体现了“能力与效率平衡“的务实定位——复杂推理、长上下文理解等能力在300B量级已充分释放，继续扩大参数规模的边际收益显著递减。

目前，Hy3已全面接入腾讯云、元宝、QQ浏览器、腾讯文档、CodeBuddy、WorkBuddy等十余款产品。输入价格最低1.2元/百万tokens，输出价格最低4元/百万tokens，为Agent开发提供了高性价比的选择。

姚顺雨在发布时表示，Hy3 preview是混元大模型重建的第一步。混元团队正在继续扩大预训练和强化学习的规模，并通过与腾讯众多产品的深度Co-Design，持续提升模型在真实场景中的综合表现。

当AI竞争进入下半场，真正的较量不再是“谁的模型更大“，而是“谁的模型更可靠“。Hy3 preview用上下文学习能力给出了一个答案：让模型不仅能“读懂“文档，更能“学会“做事。