
然后,我觉得这一点会在接下来变得越来越重要。其实一方面好的产品能够解决第一个问题,就是说我们做了这样的好的,我们做了预训练和后训练之后,我们到底要把它应用在什么样的地方产生价下去。
第二,环境是非常重要的。如果没有好的环境,那agent 就没有办法去做各种各样的事情。
但是我觉得可能最重要的是context,就是无论是企业还是个人,像我上一次在这个AGI Next 说的一样,我觉得越来越重要的事情是context。因为模型越来越擅长把一个非常复杂的输入变成一个输出,很多时候你的竞争壁垒就在于“你有没有那个最原始的输入”?
其实最重要的原因是是文化。我还记得我第一次跟你聊天的时候,包括和很多其他总办的老板聊天的时候,我第一印象就是大家都非常的诚实。
就是哪里做得好,哪里做得不好,都非常直白,就是不会去掩盖。然后就说,我知道我这里做好,我知道我这里不知道,我知道这里应该怎么做,我知不知道哪里应该怎么做。我觉得这种坦诚是是我的第一印象。
然后,我觉得腾讯总体是一个基于Trust 而不是基于Metric 去运转的公司,这一点对于做AI是非常重要的,包括我们这个文化其实有非常 low ego(小自我)非常 solid的一面。我觉得这些文化,都是可能对于长期来做一个AI组织是非常重要的,包括我们对长期主义的这种坚持。
[姚顺雨]:AI下半场最重要的是什么?
我个人的目标,就是我们应该在中国建立一个长期的基于 AGI 的这样的一个组织。
今天的 AI 其实主要有三个部分:
首先是 foundation的部分,怎么样去把预训练和后训练这种最基础的东西做得非常solid。
第二是产品,我们怎么去把这样的技术真的为人和社会产生价值;
第三就是Frontier,我们怎么去探索新的研究的范式,新的机会。
我觉得,最重要的就是,要构建一个非常均衡的三角形一样的组织。对于做foundation来说,最重要的是第一需要充足的资源。
第二就是需要正确做事的方式,这其实跟我刚刚说的文化的一点也是吻合的。那对于产品来说,我觉得就是有好的产品的 sense。有这种做产品的基因是至关重要的。
那第三,我觉得就是说在中国我们今天可能所做的探索还不够多,所以我也希望就是能把这种 Frontier exploration 的精神能更多的注入到我们组织中。
话题3:谈论Co-deisgn
[汤道生]:我们平时开会提比较多的一个词是co-design,怎么把产品跟模型,能够比较紧密结合起来?尤其今天有这么多丰富的产品;另外最近非常火的类龙虾的,像 Codebody、Workbody,对于模型的能力依赖很深,怎么去思考co-design这个方式?
[姚顺雨]:我觉得有三点。
首先,co-design 前提就说模型本身要做得很solid,有很多foundational work要做好。其实首先我觉得预训练是相对就是产品 agnostic的事情。然后他做的非常solid,可以提供一个非常强的foundation,而且预训练最大的特点是一个可泛化的学习的过程,进步是可以,带给各种各样下游的任务,以这个持续价值的提升。
国内AI产业有个不好的倾向,就是喜欢“刷榜”,但实用性价值大于刷榜价值,实事求是基于产品和应用去构造AI更重要。
我们做大量的工作,就说跟各样产品进行了深度的co-design。我觉得co-desig很关键的一点就是要产生相互信任。
第三点,我想说的就是说我觉得LLM时代和过去的AI最本质的区别就是泛化性。就是在LLM之前,比如你做一个翻译的产品,你只要把翻译的数据做特别好就行。你做一个围棋的程序,你只要把围棋的数据准备特别好就行。
但今天,即使你想只做一个 coding agent,你发现其实需要的也不仅是coding agent数据,需要非常好的聊天能力、搜索能力、指令遵循能力以及推理能力。
所以这些产品它能够提供不同的数据,但这些数据之间又可以相互泛化,形成一个像网络一样的体系,这一点的价值会越来越重要。
姚顺雨: 首先这些 benchmark 还是有它的价值的,不是说完全没价值,只是现在这些榜非常容易 saturate(饱和),而基于真实世界的数据有几个帮助:
第一,你能发现模型的很多底线问题。我们想发一个 pre-preview 模型,最重要的目的之一就是希望获得真实世界的反馈,去修复各种榜单里没法发现的底线问题——这一点会在正式版上有非常大的改进。
首先就是你能发现模型很多底线问题。实际上我觉得我们想要,就是发一个 preview 模型,最重要的目的之一就是希望能获得真实世界的反馈,来修复各种各样的,就是榜单中没法发现的这些底线问题,那我觉得这一点会在正式版上面有一个非常大的改进。
那第二点就是说,你对真实的 prompt distribution(提示词分布)有一个更深的了解。
那我举个例子,比如说benchmark上面的这些题目可能都是非常精确的,有非常长的这种 concrete description,它可能一般来说是个单轮的这样的一个问题。但是我们知道在现实场景中可能大家问的问题都是比较模糊的,可能就一两句话。但它会不停的追问,那那这些 setup 上的差异就可以启发我们怎么去更好的去做这样的训练。
我们甚至可以从这些产品上获得灵感,去推进现在还没有的榜单、没有的领域。比如我们最近做了很多 coding 能力的工作,元宝给我们的启发就很有帮助。所以我觉得产品和模型的互相成就,是越来越重要的一个 AI 话题。
话题4:做产品的第一性原理
姚顺雨: 我记得第一次跟你聊的时候,你讲了很多过去的经历,从 QQ 空间、QQ 秀的时代,一直到我小学时候最喜欢的那个产品……
汤道生: 你说的是”老灯”对吧?
姚顺雨: 对,再到 QQ、到音乐、到语音,再到现在的元宝、IMA。跟你聊天很有意思,因为你做过各种各样的产品,To C的也有、To B的也有,远古时代的也有、AI 时代的也有。
我比较好奇的是,你觉得你做产品的第一性原理是什么?哪些经验或价值是不变的,哪些东西变了?
汤道生: 我觉得做产品最终还是奔着”用户到底有什么需求、我怎么去解决他的痛点、怎么给用户或客户创造价值”。这一点在不同的时代、不同的行业都成立,产品能给用户带来价值,他才会买单、才会使用。
所以从 PC 互联网时代做空间,到移动时代做各种内容产品,再到云互联网做云,我们都要花很多时间去听客户的声音、帮他们解决问题,底层逻辑其实没有那么大的变化。
但 PC、移动互联网时代做产品,跟今天 AI 时代做产品,还是有蛮多不一样的地方。
首先从范式上看,在AI 之前,我们做产品很多时候是通过”功能”来满足需求:作为服务提供方,你想清楚要提供什么能力,让用户通过界面、菜单去选,能力是预置好的,用户只能在里面点。
但 AI 时代那种开放式的服务形态就带来很不一样的要求——交互方式可能是自然语言、是语音,作为产品方你也不知道用户会问什么,所以要充分利用模型能力去理解用户需求,再通过大模型的逻辑推理、调用工具的能力,由产品给模型提供各种可用的工具,去应对这种开放式需求。这跟我们过去做产品很不一样。
还包括你刚提到的 specification(规格)。过去对产品细节功能有很清晰的描述,怎么设计、研发、测试,那套瀑布式流程也比较清晰。但做 AI 产品,我发现最大的变化是整个流程可能都要重新设计。
尤其是今年,大部分代码都由AI生成,工程师会花更多时间做设计、做架构,把写代码的工作交给AI,再定期去指导、修正。
测试也要”左移”、更前置地去想清楚针对各种 case 的 eval(评估),要有环境,要对开放式答案有要求,甚至包括 alignment(对齐),怎么对齐到用户所需要的那种风格。我感觉今天AI时代做产品,要求的能力其实更全面了。
话题5:Hy-3做了什么改变?
[汤道生]:大家都在说Hy-3,Preview 是Hy-3,是你在腾讯的首秀。具体Hy-3做了什么改变?你能给大家介绍一下吗?[姚顺雨]:其实我觉得没有什么秘密,就是今天做大模型。从过程来说是一个比较trivial的事情,就是说我们应该把 infrastructure 做好,应该把数据做好,算法的部分其实反而是比较简单的。
我觉得主要几个点:第一,我们把这个infrastructure 进行重建,无论是预训练还是强化学习。第二,我们把数据和以往做了很多大的改变。如何去定义更真实的问题?如何去丰富这个 data 的 taxonomy(数据分类),如何去提高数据的质量?这是个永无止境的追求。
第三,我觉得很重要的很多决策,其实包括怎么去招人,怎么去设计这个模型的节奏,怎么去每天有很多这个 decision ,要考虑很多 tradeoff,我觉得可能没有一个很清晰的公式,可能我觉得是一个很 taste driven 的事情。
话题6:从ReAct到今天:几年前的预测兑现了吗?
7年前,就是GPT2那个时候,他当时只能做nexttokenprediction,而且它产生的可能一段话还不太连续,或者还有很多毛刺。当时我的想象力可能比较狂野,我觉得GPT是个非常优美的东西,就是吐出下一个Token,是非常极简且非常通用的事情,有一天潜力活在于把这个世界上所有的事情全部自动化。
当时我当时想的可能还不够大,我想的是DigitalAutomation。但现在看起来也有可能是DigitalandPhysicalAutomation。
我博士期间主要做两部分。第一部分就是如何建立一个agent的方法论,如何把nexttokenprediction的机器变成agent,变成自动化的机器。那其实就像你说的,最重要的一天工作可能是React。
我记得,22年7月某一天晚上,我第一次把语言模型的API和我当时自己手写了一个Wikipedia API的API连在一起。
然后它第一次可以基于这个网页回答问题,并且多轮交互的时候,当时感觉就像微弱的电灯丝突然亮了的感觉一样。据我所知,这可能第一次人类把LLM和就是真正的互联网连在一起,并且去做这种多人交互,感觉可能在5年或者10年会改变这个世界,但是可能比我想象中还要更快。
那另一部分其实我做的工作,就是怎么去定义Digital Automation的任务,比如说Web Shop是第一个基于互联网的,就Web agent的task,然后包括Infer Code和Switch是最早的就是Coding agent这样的任务,现在看起来就是agent的技术,最重要的两个部分可能确实是Web的agent和coding的agent。我看,我那个博士论文的结尾,就是我在24年的时候写我的futurework,第一个是train models for agent,第二个是safe and robust deployment;第三个是scientific discovery,第四个是怎么我要去help human,我很感慨。我很幸运,我确实现在在做我当时列的future direction。
话题7:Tokens焦虑,性价比的本质
[汤道生]:智能体今天大家都说需要消耗很多的Tokens的调用。这对于混元做下一代模型的研发,你觉得什么是你的侧重有哪些地方是比较重要的?[姚顺雨]:我觉得毫无疑问今天Agent的,或者说coding agent有点像预训练一样,是一个不得不做的事情,它是一个最基础的能力。我个人觉得coding这是非常本质。
Agent毫无疑问是每一家模型所发力的重点。我们做的方法可能会有几个区别。第一,即使可能今天coding也是最重要的事情,但是我们还是会强调体系的全面化。
我始终认为,真的要把coding做好,需要远远不止coding这个数据,也需要各种各样不同的东西,因为大模型最重要的点是泛化性。第二,很显然产品的作用越来越重要,如何用,利用好就线上的回流,我觉得是一个每一个模型厂商都在应对和思考的问题。
第三,我觉得其实还是需要更多想象力。无论是技术的演进,还是产品的演进,甚至下一个范式的演进,我们还需要做一些探索性的,甚至不确定性的工作。
[汤道生]:从产品侧,大家越来越多有token焦虑的声音,token的成本持续爆发式增长,也听到很多的客户,甚至用户身边的同事们,紧盯着这个积分的消耗或者token的消耗。怎么可以让我们的模型在解决某个问题或者完成某一个任务,token的效率最高?
[姚顺雨]:我觉得,现在大家讨论性价比可能更多讨论的是模型架构。但其实它是个很复杂的体系,可能最重要的事情是你的performance。
很多人其实跟我说,他最后发现用OPS这样的模型比用比更差的模型,最后发现其实更省钱。因为你更快地就把这个事情做对了,然后你也省了人的精力。
尤其今年,我觉得可能很多简单任务的robustness会变得更加重要。如何一次把很多,相对简单的任务做对,这可能是性价比更关键的部分,而不仅仅是模型架构。
那第二部分我觉得就是成本,其实本身就性价比,我觉得第一其实是性能,如果这个性能不好,性价比就无从谈起。成本的话,我觉得中国其实是领先于世界的,就是说我们做大量的工作去优化我们的成本。
但其实我觉得成本可能最重要的事情是,怎么用一个更小的模型把这个更高的这个价值任务给做好。但我个人看法,如果我们能做一个相对较小的模型,但是它又能够比肩大模型的性能。而且能够在大部分的任务上做到很强的robustness。
话题8:腾讯慢了吗?下半场到底是什么?
[汤道生]:我想问一个大家讨论比较多的问题:很多自媒体都会提到,腾讯在 AI 上没有及时抓住一些机会。你觉得我们真的慢了吗?下半场到底是什么?能多说一下吗?
[姚顺雨]: 感觉这应该是我问你的问题。我觉得今天我有两个重要的判断。
第一个判断:AI是一个短期游戏,还是长期游戏?在硅谷蔓延着很多情绪,所有人都要失业了、AI 要取代所有人的工作,所以赶快赚两年钱然后退休。这是一种判断。
但我们的判断很显然是:这会是一个长期游戏,而且其实才刚刚开始,下半场才刚开始。我不认为 GPT 和 Claude 会是唯一的 super app,那会是一个非常灰暗的世界。我觉得一定会有源源不断的新机会诞生,今天可能就像 70 年代 PC 刚出现的时候,还有很多好事情要做。
第二个判断:它会是一个更单一、还是更多元的游戏?过去几年大家能看到的是 pre-training、post-training、RL、agent、coding agent,好像有一条非常清晰的主线,坦白说所有人都在做一样的事,这也是件很灰暗的事。未来到底会更单一还是更多元?
我个人觉得会更多元。coding agent 的生产力毫无疑问会越来越重要,而且它才刚刚开始,这个世界还有 trillions of dollars 的市场没被填满;但多模态、具身智能,还有很多很多新事情正在或刚刚发生。所以从这个角度看,如果我们认为下半场才刚开始,那可能确实不算晚。
当然,过去模型、产品做了很多探索,走了很多弯路,我觉得这很正常,没做过一件事,第一次做肯定会有曲折。但可能更重要的是:能不能诚实地面对自己,能不能 be real,能不能看到 feedback 然后去改变,能不能保持耐心。我觉得这些事情,在下半场会更加重要。
[姚顺雨]: 你怎么看?
[汤道生]: 大家对腾讯经常喜欢挑某一个点来批评,我们也欢迎大家提更高的要求。腾讯有非常多的业态、很多产品在很多赛道,同时很多团队在推进不同项目。在这样一个复杂的组织里,有些地方可能做得快,有些地方做得慢,有些地方可能在探索中失败。
所以这些提醒都非常好,确实有些地方我们可以做得更好。但就像你说的,这是一场长跑、一场马拉松。
腾讯有非常丰富的场景。就像你一开始提到的,选择腾讯是因为 AI 需要 context,模型需要很多上下文,而腾讯多年来在不同赛道、不同产品上的积累,都可以针对每一个场景为模型提供有用的信息、提供 context、发挥价值。
在这场长跑里,我相信模型会不断迭代,用户需求也在不断变化,还会有新的产品形态出现。比如今年初那一波(视频生成?)热潮我们反应也比较快;同时也有 Workbody 这样的智能体产品——其实是几年前就开始做的产品,沿着原来 coding 的积累慢慢看到很强的需求,我们也能比较快地去应对。
今天也听到很多客户对我们不同产品怎么组合起来有很高的期待。所以我们正在长跑中,也请各位多给我们提醒和建议,多用我们的产品,给我们正向的、constructive 的反馈。(注:以上内容稍有整理,若有问题随时调整)
夜雨聆风