姚顺雨的上下文学习革命,直击大模型"学不会、用不对"的核心短板
当整个行业都在追逐Agent工具调用与代码跑分时,腾讯混元Hy3 preview选择了一条不同的路:它把"出色的上下文学习和指令遵循能力"写在能力清单的第一位。
这不是一次常规的性能迭代。作为腾讯混元推倒重建后的首个模型,Hy3 preview承载着28岁首席AI科学家姚顺雨的一个核心判断——当前大模型的核心短板不是"读不全、找不到",而是"学不会、用不对、执行不了"。
换句话说,现在的模型更像一个只会背书的优等生,给足信息也未必能正确应用。Hy3要做的,是让模型从"做题家"进化成真正的"学习者"。

图1:AI模型从上下文中学习新知识
一场从"记忆"到"学习"的范式转变
传统大模型依赖"参数化知识"——那些在预训练阶段被压缩进模型权重的静态记忆。当模型面对新任务时,它更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。
姚顺雨在CL-bench论文中揭示了一个扎心的事实:即使是GPT-5.1这样的顶尖模型,在完全自包含的上下文任务中,成功率也只有23.7%。这解释了一个常见现象:文档给了、规则写了、流程清楚了,模型依然输出错误结果。

图2:模型从"做题家"到"学习者"的转变
Hy3 preview的设计就是要解决这个问题。它不满足于在上下文中检索信息,而是追求从中提取隐含规则并内化为稳定的执行逻辑。在姚顺雨自建的CL-bench评测中,Hy3得分26.7,相比前代提升39%。
495步任务链:稳定性背后的技术哲学

图3:495步复杂任务链的稳定执行
在腾讯内部的测试中,Hy3 preview已稳定驱动最长495步的复杂Agent工作流。这个数字的意义在于:如果模型在第50步就理解错了上下文,后面445步会全部偏离目标。
这背后体现的是姚顺雨一贯的技术思想。从博士阶段提出的ReAct框架,到自研的CL-bench评测,再到Hy3的设计原则,其脉络始终是让模型具备"现场学习"能力,从而适应真实世界的动态约束。

图4:姚顺雨技术思想的演进路径
Hy3没有追求单项能力刷榜,而是通过推理、长文、指令等能力的深度协同,实现生产环境下的体系化稳定。在CodeBuddy和WorkBuddy等产品中,Hy3的首token延迟降低54%,端到端时长降低47%,成功率提升至99.99%以上。
从研究到产品:一条务实的落地路径

图5:Hy3已全面接入腾讯多个产品
Hy3 preview是一个295B总参数、21B激活参数的混合专家模型,支持256K上下文长度。这个尺寸选择体现了"能力与效率平衡"的务实定位——复杂推理、长上下文理解等能力在300B量级已充分释放,继续扩大参数规模的边际收益显著递减。
目前,Hy3已全面接入腾讯云、元宝、QQ浏览器、腾讯文档、CodeBuddy、WorkBuddy等十余款产品。输入价格最低1.2元/百万tokens,输出价格最低4元/百万tokens,为Agent开发提供了高性价比的选择。
姚顺雨在发布时表示,Hy3 preview是混元大模型重建的第一步。混元团队正在继续扩大预训练和强化学习的规模,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现。
当AI竞争进入下半场,真正的较量不再是"谁的模型更大",而是"谁的模型更可靠"。Hy3 preview用上下文学习能力给出了一个答案:让模型不仅能"读懂"文档,更能"学会"做事。
夜雨聆风