





他表示,强化学习在某种程度上是在“缓存搜索结果”,让智能体不必每一次都从零开始,这也是强化学习区别于监督学习和无监督学习的地方。
强化学习面对的是序列决策问题。智能体在每一个时间步观察状态,采取行动,得到奖励,并进入下一个状态。这里的难点在于,行动的后果并不总是立刻显现。一次看似有利的选择,可能会把系统带入长期不利的状态;一次眼前收益不高的探索,却可能打开未来更大的可能性。强化学习要处理的,正是这种跨时间的因果关系。
眼前的收益并不总是最重要的,真正关键的是长期奖励。一个好的智能体必须学会为了更大的未来收益牺牲短期利益,也必须在探索未知与利用已知之间取得平衡。
强化学习在今天的价值,并不只是让AI更强,它还迫使我们更严肃地思考:什么是目标?什么是奖励?什么是长期价值?什么是安全行为?
未来的强化学习研究不仅要追求更高分数、更快收敛和更强泛化,也要追求更可解释、更可控、更符合人类意图的学习过程。
当前,深度强化学习的计算能力与我们对大脑奖励系统的新理解正在汇合,也许下一轮人工智能的重要进展,就会从这条交汇处再次生长出来。

此外,智源目前正在研发中的模型为悟界·RoboBrain Orca,以预测下一个物理状态为核心来构建具身大脑。
王仲远在分享中表示,现有“世界模型”存在一些局限与误区。
当下主流模型分为四类范式,一是以语言为中心,依托Next-Token-Prediction在文本空间预测下一词,代表为LLM、VLM、VLA,这类模型能描述常识,却无法精准预判连续物理状态、冲击强度与裂纹拓展等真实物理后果;
二是以像素为中心,依靠Next-Pixel/Frame-Prediction在视觉空间学习画面,代表有Sora、Seedance,只会生成画面视频,并不理解背后物理逻辑;
三是以视觉表征为中心,采用Next-Embedding-Prediction做视觉表征压缩预测,代表是JEPA系列,其表征未必对应真实物理状态,缺少可解释、可验证的物理语义;
四是以三维结构为中心,通过Next-3D-Structure-Prediction重建3D空间,代表包含3D重建、World Labs、Marble,几何结构不等于真实物理状态,静态三维建模也无法等同于理解动态交互的物理世界。
语言模型、视频动作生成、三维重建、视觉表征均不等于真正的世界模型,真正的世界模型要以物理状态为核心,遵循Next Physical State Prediction逻辑,受物理规律与常识约束,核心能力是预判下一物理状态、推演世界演化,学习编码物理状态与因果关系。
他还提到,当前具身智能存在四大瓶颈“循环悖论”:数据短缺、硬件不成熟、模型能力弱、落地应用难。
针对困局,需要以解决模型能力作为突破口:数据层面由多方协作共建,搭建开放共享的数据生态;模型层面依靠科研机构发力,研发具身大模型,推动迭代能力代际跃迁;应用层面由企业主导推进,打造场景驱动的产业共同体,逐步化解落地难题;硬件层面依托本体公司发力,重构自主可控硬件生态,打破成本桎梏、提升硬件性能。

关于有没有超前洞察未来的底层思维模型,王坚提到,很多时候今天已经很难讲有一个想法,是你先想过还是说另外一个人先想过。关键在于另一个问题:你想了之后有没有告诉大家,更困难的是你有没有勇气去尝试一下,到最后就是当觉得没有希望的时候,你能不能非常有毅力地再往前多走一步。
此外,不要被“AI”这类名词框住思考边界,很多时候概念本身会局限思考框架,固定三层思考框架:动物智能、人类智能、机器智能,依托这套框架判断,机器智能不可能替代人类;举例狗的嗅觉远超人类,但不会对人类形成威胁,每个人都需要搭建属于自己的独立思考框架。
做事摒弃机会主义,不能把外界支持当成行动的先决条件;没人支持就不行动的人,往往很难等来支持,要去做自己真心相信、并且愿意亲身践行的事,自身信念足够坚定,自然会吸引支持者。
如今中美AI处在同等发展大盘里,不再是早年“泳池对比大海”的差距,进度快慢只是技术性差异,行业还有极漫长发展路程,不能用“差距大小”简单定义中美AI的关系。
王坚对Agent智能体的危机管控、安全边界持乐观态度,认为人类亲手创造的问题,最终一定能由人类自行解决,并提到长远技术目标:大幅压低token成本,让算力、文本调用像纸张一样廉价普及。
黄铁军在对话中提到,中国AI发展两大核心要点:要有自主原创思考方向、关键节点敢于果断下注投入;要接纳科技创新与生俱来的不确定性,不能抱着“交作业式”的心态。
AGI、智能进化属于全人类共同宏大叙事,并非单一国家赛道,智能发展长期只围绕两大核心主线:①数据/功能驱动(收集样本训练,模仿生物、人类智能);②生理物理结构基础(人类大脑躯体、机器 Transformer 及迭代新架构)。
人与AI的关系理想状态是深度融合共存,类比父母与孩子,存在矛盾冲突,但彼此无法分割,AI能抵达人类难以触及的边界,依靠智能作为纽带,将大幅延伸人类的探索范围。

对话中,Anthropic的“神话级”模型Claude Fable 5、AI自进化、Auto Research等成为讨论的焦点。
罗福莉认为,Fable 5能力提升是预训练规模、Test-Time缩放、强化学习、合成数据多维度持续Scaling带来的阶段性量变成果,并非质变终点,缩放路线仍可继续推进。
关于AI自进化现状,模型已能完成科研全流程里的实验规划、指标验证、结果校验环节,短板在于提出优质原创科研假设、精准判断终止无效研究,差距或可依靠更强基座+RSI递归自进化系统逐步缩小。
目前,数字端语言模型路径进度更快,依托Agent系统、奖励体系可高效缩放迭代;物理端世界模型尚处早期,最大瓶颈是缺少长上下文高效视频世界模拟器,未来二者会互通:成熟世界模拟器同样可叠加Agent脚手架放大能力。
朱军提到,大模型、视频/世界模型的Scaling路径都远未到边界,更大模型、更高质量数据、架构优化仍能稳定抬升性能,Fable 5大幅降低复杂任务Token消耗是正确进化方向。
长远一定会诞生通用世界模型,前期基础模型先掌握60%通用物理能力,再依托物理实体、真实交互反馈持续迭代至更高水准,视频是搭建世界模型最核心数据载体,天然承载海量物理世界信息,是世界模型落地第一抓手。
刘知远认为Anthropic成功反超OpenAI的原因,是因为找到了代码这个非常垂直聚焦的方向,在专业领域里形成了数据闭环,这个模式可复制到各行各业垂直专业领域,多领域数据闭环将全面加速AI产业落地。此外,他还提到智能革命其实就是要用AI来替代人的机械的、重复的脑力劳动,AI制造AI是一定会发生的事情,是人工智能发展到高级状态的标志。
但社会需要同步定义“AI制造AI”对应的全新研究课题,更有针对性开展技术探索突破,RSI递归自我改进的顶层主导者永远是人,人类要掌握AI发展方向、服务社会的核心决策权。
AI时代,整个世界变化得太快了,嘉宾们给到年轻人的建议大概有以下几点:
守住自己的好奇心与探索欲;夯实底层基本功是核心竞争力;敢为人先,真正创新来自无人涉足的方向,要敢于做出差异化选择;学位含金量下降,实战创造能力才是硬功夫。
-END-

如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。

夜雨聆风



