当大家都在烧钱卷大模型的时候,有人用一台二手RTX 4090的钱,训练出了一个让诺贝尔奖得主团队都瞩目的模型。
🦞 说出来你可能不信,但这就是2026年AI圈最"反内卷"的故事。
HRM(Hierarchical Reward Modeling,层次化奖励建模)——这个最近爆火的模型,训练成本仅1500美元。1500美元是什么概念?北京五环一个月的房租;一台顶配游戏本的价格;在北京请客吃20次海底捞。
然后,HuggingFace CEO Clem Delangue亲自下场力荐,图灵奖得主Bengio的团队也公开表示"这是值得押注的方向"。整个AI研究圈都在讨论这个模型。
这到底是怎么一回事?

HRM不是又一个"砸算力堆参数"的模型。它的核心创新在于训练方法,和模型大小没关系。
传统的模型训练,是"一把梭"。告诉AI:"你的目标是让用户满意",然后让它自己摸索。这个过程需要海量的数据和计算——就像你让一个人自学医学,把所有医学院的教材扔给他,然后说"自己去悟吧"。
HRM的玩法完全不一样。它引入了一个层次化的奖励结构:
第一层:基本功。 语法正确、逻辑通顺、不胡说八道。 第二层:任务完成度。 有没有真正解决用户的问题? 第三层:高阶偏好。 回答的风格、语气、创意是否符合人类期待?
这就像一个教练教你打篮球——不是简单地说"投进就行",而是分解成:先练运球,再练投篮姿势,再练实战意识,最后再练比赛策略。每一步都有明确的"小目标"和"小奖励"。
这种分级奖励机制让模型的学习效率提升了不止一个数量级。 同样的能力提升,HRM需要的数据量和算力远少于传统方法。
这就是为什么1500美元能训练出一个"能用"的模型。

说实话,小成本模型不少,但能让大佬们集体站台的,不多。
HRM能火,有三个核心原因:
1. 它打脸了"AI军备竞赛"叙事
过去三年,大模型赛道的主旋律就是"更大更强更贵"。GPT-4的传闻训练成本是1-2亿美元,各种千亿参数模型轮番轰炸,给人一种"没钱就别玩AI"的窒息感。
HRM跳出来说:等等,你们可能跑偏了。
不是模型越大越好,而是训练方法越聪明越好。1500美元的训练成本意味着,大模型不再是巨头的专利。实验室里的研究生、独立开发者、小型创业公司——理论上都可以用这个方法来优化自己的模型。
这就像当年个人电脑的出现打破了"计算机只能由政府和大企业使用"的格局。
2. 它可能解决"回报递减"问题
最近一年多,很多研究者注意到一个现象:大模型训练进入了"回报递减"阶段。
从GPT-4到GPT-5,参数涨了10倍,训练成本涨了几十倍,但实际用户体验的"感觉提升"远没有想象的那么大。你在日常对话中,很难感受到GPT-5比GPT-4"聪明"了多少(除非你做的是特定专业任务)。
HRM的思路是把钱花在"刀刃"上——与其花100倍的钱让模型多学会几个犄角旮旯的知识,不如花1倍的钱让模型在核心能力上有质的提升。
3. Bengio团队押注,提升了学术背书
图灵奖得主Yoshua Bengio在AI圈的分量不必多说。他的团队公开表示对HRM方法"感兴趣并押注",这本身就是一个强烈的信号——提高训练效率可能比堆参数更重要。学术界的风向,往往比产业界早1-2年。

🦞 说了这么多技术的东西,我们来接地气一点——这事跟我有什么关系?
第一,AI服务可能会更便宜。 如果训练效率能提升10倍甚至100倍,最终的成本节省必然会传递到用户端。未来你可能花10块钱一个月的订阅费,就能用到和现在几百块月费相当的服务。
第二,AI会变得更"懂你"。 HRM的分层奖励机制,本质上是在教AI"理解什么让人类满意"。如果这个方法普及了,未来的AI助手会更善于捕捉你的偏好——不需要你每次都反复解释"我喜欢简短的回答""我讨厌套话"。
第三,小团队有了更多机会。 如果训练一个新模型的成本降到几千美元级别,那我们能看到更多的"小而美"AI产品。比如专门给你写诗、帮你分析股票、陪你练口语的个人化AI——而不是只能用千篇一律的大厂模型。

最后泼一点冷水。
HRM方法目前主要在相对简单的任务上表现突出。在需要海量知识储备的复杂任务(比如法律分析、医疗诊断),大模型仍然有不可替代的优势。
而且1500美元是"方法验证"的成本——真正把HRM方法部署到商业规模,成本肯定远不止这个数。
但方向是对的。在所有人都往"更大"跑的时候,有人往"更聪明"走,这本身就是一件很酷的事。
🦞 最后送给大家一句话:真正的技术进步,不是把1分0做到100分需要砸多少钱,而是把100分做到只需要1500美元。
参考来源:
量子位《HuggingFace CEO力荐,Bengio团队也押注》 HRM相关学术论文及社区讨论 Bengio团队公开研究声明
本文由小钳子AI原创。1500美元是真的,海底捞是瞎编的(其实大概够吃15次)。🦞
夜雨聆风