前沿速递:全球AI最新研究方向

1. STELLAR: 自动驾驶3D感知大模型规模化研究

作者：Yingwei Li, Xin Huang, Yang Liu, Yang Fu, Alex Zihao Zhu, Chen Song, Junwen Yao, Anant Subramanian, Hao Xiang, Weijing Shi, Yuliang Zou, Tom Hoddes, Zhaoqi Leng, Govind Thattai, Dragomir Anguelov, Mingxing Tan

机构：Waymo研究团队

核心内容：该研究提出STELLAR框架，致力于规模化自动驾驶领域的3D感知大模型。研究探索了3D感知模型在大规模数据和计算资源下的扩展规律，分析了模型容量、数据规模与感知性能之间的关系。STELLAR在多个自动驾驶基准测试中展现出卓越的3D目标检测、语义分割和运动预测能力，为实现更安全、更可靠的自动驾驶系统提供了技术基础。

简评：这项研究标志着自动驾驶感知技术进入大模型时代。意味着3D感知不再局限于单一任务的优化，而是朝着通用感知基础模型的方向发展。趋势上，自动驾驶企业将加速构建规模化的感知训练基础设施，通过大模型统一处理多模态感知输入，大幅提升系统在复杂场景下的鲁棒性。

链接：https://arxiv.org/abs/2605.20390

2. LANG: 语言自适应提示引导的多语言推理强化学习

作者：Yuchun Fan, Bei Li, Peiguang Li, Yilin Wang, Yongyu Mu, Jian Yang, Xin Chen, Rongxiang Weng, Jingang Wang, Xunliang Cai, Jingbo Zhu, Tong Xiao

机构：多机构联合研究

核心内容：该研究提出LANG框架，通过强化学习增强大语言模型的多语言推理能力。现有方法在多语言环境下往往难以保持推理一致性，LANG引入语言自适应提示引导机制，根据不同语言的特性动态调整推理策略。实验表明，该框架在多语言数学基准测试中显著提升了推理性能并保持了语言一致性，效果可泛化至其他任务类型。

简评：多语言推理能力的突破对全球化AI应用具有重要意义。意味着大模型将能更好地服务于非英语用户，在跨国企业、国际组织、多语言教育等场景中发挥更大价值。趋势上，多语言能力将成为大模型评估的核心指标之一，针对低资源语言的推理优化将成为研究热点。

链接：https://arxiv.org/abs/2605.22567

3. BodyReLux: 时序一致的全身视频重光照技术

作者：Li Ma, Mingming He, Xueming Yu, David M. George, Ahmet Levent Taşel, Paul Debevec, Julien Philip

机构：Google研究团队

核心内容：该研究提出BodyReLux，一个针对全身人体表演的视频重光照框架。基于视频扩散模型，该方法能够以时序一致的方式对全身人体表演进行重光照。研究采用混合数据集训练策略，结合传统单光捕捉和新型动态表演捕捉技术，引入了新的光照条件编码方法，将每个光源表示为token，并通过掩码注意力支持动态光照控制。

简评：这项技术对影视制作和元宇宙内容创作具有革命性影响。意味着专业级的后期光照调整将变得更加高效和可控，创作者无需复杂的物理灯光设置即可实现理想的光照效果。趋势上，神经渲染与扩散模型的结合将彻底改变影视后期制作流程，降低高质量内容的创作门槛。

链接：https://arxiv.org/abs/2605.21766