乐于分享
好东西不私藏

腾讯Hy3:让AI真正学会"看文档干活"

腾讯Hy3:让AI真正学会"看文档干活"

姚顺雨的上下文学习革命,直击大模型学不会、用不对的核心短板

当整个行业都在追逐Agent工具调用与代码跑分时,腾讯混元Hy3 preview选择了一条不同的路:它把出色的上下文学习和指令遵循能力写在能力清单的第一位。

这不是一次常规的性能迭代。作为腾讯混元推倒重建后的首个模型,Hy3 preview承载着28岁首席AI科学家姚顺雨的一个核心判断——当前大模型的核心短板不是读不全、找不到,而是学不会、用不对、执行不了

换句话说,现在的模型更像一个只会背书的优等生,给足信息也未必能正确应用。Hy3要做的,是让模型从做题家进化成真正的学习者

1AI模型从上下文中学习新知识

一场从记忆学习的范式转变

传统大模型依赖参数化知识“——那些在预训练阶段被压缩进模型权重的静态记忆。当模型面对新任务时,它更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。

姚顺雨在CL-bench论文中揭示了一个扎心的事实:即使是GPT-5.1这样的顶尖模型,在完全自包含的上下文任务中,成功率也只有23.7%。这解释了一个常见现象:文档给了、规则写了、流程清楚了,模型依然输出错误结果。

2:模型从做题家学习者的转变

Hy3 preview的设计就是要解决这个问题。它不满足于在上下文中检索信息,而是追求从中提取隐含规则并内化为稳定的执行逻辑。在姚顺雨自建的CL-bench评测中,Hy3得分26.7,相比前代提升39%

495步任务链:稳定性背后的技术哲学

3495步复杂任务链的稳定执行

在腾讯内部的测试中,Hy3 preview已稳定驱动最长495步的复杂Agent工作流。这个数字的意义在于:如果模型在第50步就理解错了上下文,后面445步会全部偏离目标。

这背后体现的是姚顺雨一贯的技术思想。从博士阶段提出的ReAct框架,到自研的CL-bench评测,再到Hy3的设计原则,其脉络始终是让模型具备现场学习能力,从而适应真实世界的动态约束。

4:姚顺雨技术思想的演进路径

Hy3没有追求单项能力刷榜,而是通过推理、长文、指令等能力的深度协同,实现生产环境下的体系化稳定。在CodeBuddyWorkBuddy等产品中,Hy3的首token延迟降低54%,端到端时长降低47%,成功率提升至99.99%以上。

从研究到产品:一条务实的落地路径

5Hy3已全面接入腾讯多个产品

Hy3 preview是一个295B总参数、21B激活参数的混合专家模型,支持256K上下文长度。这个尺寸选择体现了能力与效率平衡的务实定位——复杂推理、长上下文理解等能力在300B量级已充分释放,继续扩大参数规模的边际收益显著递减。

目前,Hy3已全面接入腾讯云、元宝、QQ浏览器、腾讯文档、CodeBuddyWorkBuddy等十余款产品。输入价格最低1.2/百万tokens,输出价格最低4/百万tokens,为Agent开发提供了高性价比的选择。

姚顺雨在发布时表示,Hy3 preview是混元大模型重建的第一步。混元团队正在继续扩大预训练和强化学习的规模,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现。

AI竞争进入下半场,真正的较量不再是谁的模型更大,而是谁的模型更可靠Hy3 preview用上下文学习能力给出了一个答案:让模型不仅能读懂文档,更能学会做事。