
HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
中文标题: HY-World 2.0:用于重建、生成和模拟3D世界的多模态世界模型关键词: Multi-modal World Model,3D Gaussian Splatting,3D Scene Generation,World Reconstruction,Interactive 3D Exploration简介: HY-World 2.0是一个多模态世界模型框架,利用全景生成、轨迹规划、世界扩展和组合的专用模块,以及用于交互式3D探索的增强渲染平台,从多样化输入生成高保真3D高斯泼溅场景。摘要: 我们介绍了HY-World 2.0,这是一个推进了我们先前项目HY-World 1.0的多模态世界模型框架。HY-World 2.0支持多种输入模态,包括文本提示、单视图图像、多视图图像和视频,并生成3D世界表示。对于文本或单视图图像输入,该模型执行世界生成,合成高保真、可导航的3D高斯泼溅(3DGS)场景。这是通过四阶段方法实现的:a) 使用HY-Pano 2.0进行全景生成,b) 使用WorldNav进行轨迹规划,c) 使用WorldStereo 2.0进行世界扩展,d) 使用WorldMirror 2.0进行世界组合。具体而言,我们引入了关键创新以增强全景保真度,实现3D场景理解和规划,并升级了WorldStereo(我们的基于关键帧的具有一致性记忆的视图生成模型)。我们还通过改进模型架构和学习策略升级了WorldMirror(一个用于通用3D预测的前馈模型),从而能够从多视图图像或视频重建世界。此外,我们介绍了WorldLens,这是一个高性能3DGS渲染平台,具有灵活的引擎无关架构、自动IBL照明、高效碰撞检测和训练-渲染协同设计,支持角色交互式探索3D世界。大量实验表明,HY-World 2.0在开源方法的多个基准测试中实现了最先进的性能,其结果可与闭源模型Marble相媲美。我们发布了所有模型权重、代码和技术细节,以促进可复现性并支持对3D世界模型的进一步研究。链接: https://arxiv.org/pdf/2604.14268
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
中文标题: RAD-2:在生成器-判别器框架中扩展强化学习关键词: autonomous driving,motion planning,diffusion model,reinforcement learning,generator-discriminator framework简介: 一个用于自动驾驶运动规划的统一生成器-判别器框架,通过基于扩散的轨迹生成和强化学习优化来提高稳定性和性能。摘要: 高级自动驾驶要求运动规划器能够对多模态未来不确定性进行建模,同时在闭环交互中保持鲁棒性。尽管基于扩散的规划器在建模复杂轨迹分布方面是有效的,但它们在仅使用模仿学习进行训练时,经常遭受随机性不稳定和缺乏纠正性负反馈的问题。为了解决这些问题,我们提出了RAD-2,一个用于闭环规划的统一生成器-判别器框架。具体而言,基于扩散的生成器用于生成多样化的轨迹候选,而经过强化学习优化的判别器则根据其长期驾驶质量对这些候选进行重新排序。这种解耦设计避免了将稀疏标量奖励直接应用于完整的高维轨迹空间,从而提高了优化稳定性。为了进一步增强强化学习,我们引入了时间一致性群相对策略优化,该优化利用时间相干性来缓解信用分配问题。此外,我们提出了策略内生成器优化,它将闭环反馈转换为结构化的纵向优化信号,并逐步将生成器推向高奖励轨迹流形。为了支持高效的大规模训练,我们引入了BEV-Warp,一个高通量的仿真环境,它通过空间扭曲直接在鸟瞰图特征空间中执行闭环评估。与强大的基于扩散的规划器相比,RAD-2将碰撞率降低了56%。现实世界的部署进一步证明了在复杂城市交通中提高了感知安全性和驾驶平顺性。链接: https://arxiv.org/pdf/2604.15308
DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation
中文标题: DR^{3}-Eval:迈向现实且可复现的深度研究评估关键词: Deep Research Agents,Multimodal Report Generation,Benchmark,Evaluation Framework简介: DR-Eval是一个用于评估深度研究智能体在多模态、多文件报告生成方面表现的基准,其特点是对网络环境的真实模拟以及一个全面的评估框架。摘要: 深度研究智能体旨在解决涉及规划、检索、多模态理解和报告生成的复杂、长期的研究任务,但由于网络环境的动态性和任务定义的模糊性,对其评估仍然充满挑战。我们提出了DR^{3}-Eval,这是一个用于评估深度研究智能体在多模态、多文件报告生成方面表现的现实且可复现的基准。DR^{3}-Eval由真实的用户提供的材料构建而成,并配有一个针对每个任务的静态研究沙箱语料库,该语料库在模拟开放网络的复杂性的同时保持完全可验证性,其中包含支持性文档、干扰项和噪声。此外,我们引入了一个多维度的评估框架,衡量信息召回率、事实准确性、引用覆盖率、指令遵循和深度质量,并验证了其与人类判断的一致性。基于多个最先进语言模型开发的多智能体系统DR^{3}-Agent的实验表明,DR^{3}-Eval具有极高的挑战性,并揭示了检索鲁棒性和幻觉控制方面的关键失效模式。我们的代码和数据已公开。链接: https://arxiv.org/pdf/2604.14683
How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
中文标题: 如何微调推理模型?一个用于合成与学生一致的SFT数据的师生协作框架关键词: reasoning model,fine-tuning,synthetic data,teacher-student cooperation简介: 师生协作数据合成框架解决了合成数据中的风格差异问题,从而提升了模型微调性能。摘要: 一种广泛采用的模型增强策略是使用由更强模型生成的合成数据进行监督微调(SFT)。然而,对于像Qwen3-8B这样的新兴推理模型,这种方法往往无法提升推理能力,甚至会导致性能大幅下降。在本工作中,我们发现教师生成的数据与学生分布之间存在显著的风格差异,这是影响SFT的一个主要因素。为了弥合这一差距,我们提出了一个师生协作数据合成框架(TESSY),该框架交替使用教师和学生模型来生成风格和非风格标记。因此,TESSY生成的合成序列既继承了教师的高级推理能力,又保持了与学生分布的风格一致性。在使用GPT-OSS-120B作为教师进行代码生成的实验中,使用教师生成的数据对Qwen3-8B进行微调会导致在LiveCodeBench-Pro上性能下降3.25%,在OJBench上下降10.02%,而TESSY分别实现了11.25%和6.68%的提升。链接: https://arxiv.org/pdf/2604.14164
ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack
中文标题: ASGuard:激活缩放防御以缓解针对性越狱攻击关键词: ASGuard,Activation-Scaling Guard,Targeted Jailbreaking Attack,Mechanistic Circuit Analysis,Large Language Models,Safety Alignment,Tense Jailbreaking,Attention Heads,Preventative Fine-tuning,AI Safety简介: 激活缩放防御(ASGuard)通过机制电路分析和针对性微调,识别并重新校准易受基于时态的越狱攻击影响的特定注意力头,从而缓解大语言模型中脆弱的拒绝行为。摘要: 尽管大语言模型(LLMs)经过了安全对齐,但它们表现出脆弱的拒绝行为,这些行为可以通过简单的语言变化来规避。由于时态越狱表明,模型在拒绝有害请求时,若将其改写为过去时态往往会遵从,这揭示了当前对齐方法中一个关键的泛化差距,而其潜在机制尚不明确。在这项工作中,我们引入了激活缩放防御(ASGuard),这是一个具有深刻见解、基于机制认知的框架,能够精准缓解这一特定漏洞。首先,我们利用电路分析识别出与针对性越狱(如时态改变攻击)因果相关的特定注意力头。其次,我们训练一个精确的通道级缩放向量,以重新校准易受时态攻击的注意力头的激活。最后,我们将其应用于“预防性微调”,迫使模型学习更稳健的拒绝机制。在四个大语言模型上,ASGuard有效降低了针对性越狱的攻击成功率,同时保持了通用能力并最大限度地减少了过度拒绝,在安全性和实用性之间实现了帕累托最优平衡。我们的发现强调了基于机制分析,对抗性后缀如何抑制拒绝中介方向的传播。此外,我们的工作展示了如何利用对模型内部机制的深刻理解,开发出实用、高效且有针对性的调整模型行为的方法,为更可靠和可解释的人工智能安全指明了方向。链接: https://arxiv.org/pdf/2509.25843
HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
中文标题: HiVLA:一种以视觉定位为中心的分层具身操作系统关键词: Visual-Language-Action models,Hierarchical framework,Embodied manipulation,Diffusion Transformer简介: HiVLA提出了一个分层视觉-语言-动作框架,通过使用带有级联交叉注意力的扩散Transformer动作专家,将语义规划与运动控制解耦,从而改进机器人操作。摘要: 尽管端到端视觉-语言-动作(VLA)模型为机器人操作提供了一个有前景的范式,但在狭窄的控制数据上对其进行微调往往会损害其从基础视觉-语言模型(VLM)继承的深刻推理能力。为了解决这一根本权衡问题,我们提出了HiVLA,一种以视觉定位为中心的分层框架,明确地将高层语义规划与底层运动控制解耦。在高层部分,VLM规划器首先执行任务分解和视觉定位,生成结构化计划,包括子任务指令和精确的目标边界框。然后,为了将该计划转化为物理动作,我们在底层部分引入了一个流匹配扩散Transformer(DiT)动作专家,并配备了一种新颖的级联交叉注意力机制。该设计依次融合全局上下文、高分辨率以对象为中心的裁剪图像和技能语义,使DiT能够专注于鲁棒的执行。我们的解耦架构保留了VLM的零样本推理能力,同时允许独立改进这两个组件。在模拟和现实世界中的大量实验表明,HiVLA显著优于最先进的端到端基线模型,特别是在长时程技能组合和杂乱场景中小物体的精细操作方面表现出色。链接: https://arxiv.org/pdf/2604.14125
GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
中文标题: GlobalSplat:通过全局场景令牌实现高效的前馈3D高斯泼溅关键词: 3D Gaussian Splatting,Global Scene Representation,Feed-forward Inference,Novel-view Synthesis简介: GlobalSplat引入了一个全局场景表示框架,实现了紧凑、一致的3D高斯泼溅,同时降低了计算开销并提高了推理速度。摘要: 基元的高效空间分配是3D高斯泼溅的基础,因为它直接决定了表示紧凑性、重建速度和渲染保真度之间的协同作用。以前的解决方案,无论是基于迭代优化还是前馈推理,都在这些目标之间存在显著的权衡,主要由于依赖缺乏全局场景感知的局部、启发式驱动的分配策略。具体而言,当前的前馈方法大多是像素对齐或体素对齐的。通过将像素反投影为密集的、视图对齐的基元,它们将冗余烘焙到3D资产中。随着添加更多输入视图,表示大小增加,全局一致性变得脆弱。为此,我们引入了GlobalSplat,一个基于先对齐、后解码原则构建的框架。我们的方法学习一个紧凑的、全局的、潜在的场景表示,该表示编码多视图输入并在解码任何显式3D几何之前解决跨视图对应关系。至关重要的是,这种公式化实现了紧凑、全局一致的重建,而无需依赖预训练的像素预测主干或重用密集基线的潜在特征。利用逐渐增加解码容量的从粗到细的训练课程,GlobalSplat原生地防止了表示膨胀。在RealEstate10K和ACID上,我们的模型实现了竞争性的新视图合成性能,同时仅使用16K高斯,显著少于密集流水线所需的数量,获得了轻量级的4MB占用空间。此外,GlobalSplat实现了比基线显著更快的推理,在单次前向传递中运行时间低于78毫秒。项目页面可在https://r-itk.github.io/globalsplat/获取。链接: https://arxiv.org/pdf/2604.15284
UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards
中文标题: UniDoc-RL:基于分层动作和密集奖励的由粗到细视觉检索增强生成关键词: Visual RAG,Reinforcement Learning,Hierarchical Actions,Dense Rewards,LVLMs简介: UniDoc-RL引入了一种针对大型视觉语言模型(LVLMs)的强化学习框架,通过分层决策和密集多奖励监督,联合优化检索、重排序、视觉感知和推理。摘要: 检索增强生成(RAG)利用外部视觉知识扩展了大型视觉语言模型(LVLMs)。然而,现有的视觉RAG系统通常依赖于通用的检索信号,忽视了复杂推理所必需的细粒度视觉语义。为了解决这一局限性,我们提出了UniDoc-RL,这是一个统一的强化学习框架,其中LVLM智能体联合执行检索、重排序、主动视觉感知和推理。UniDoc-RL将视觉信息获取表述为一个具有分层动作空间的序列决策问题。具体而言,它将视觉证据从粗粒度的文档检索逐步细化为细粒度的图像选择和主动区域裁剪,使模型能够抑制无关内容并关注信息密集区域。为了进行有效的端到端训练,我们引入了一种密集多奖励方案,为每个动作提供任务感知的监督。基于群组相对策略优化(GRPO),UniDoc-RL在不依赖独立价值网络的情况下,将智能体行为与多个目标对齐。为了支持这种训练范式,我们策划了一个包含细粒度动作注释的高质量推理轨迹的综合数据集。在三个基准测试上的实验表明,UniDoc-RL始终优于最先进的基线,相比先前的基于RL的方法实现了高达17.7%的性能提升。链接: https://arxiv.org/pdf/2604.14967
Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models
中文标题: Switch-KD:视觉语言模型的视觉切换知识蒸馏关键词: Vision-Language Models,Knowledge Distillation,Multimodal Alignment,Model Compression简介: 视觉语言模型因其庞大的规模而面临部署挑战,但知识蒸馏可以通过一种新颖的视觉切换框架提高效率,同时保持性能,该框架增强了多模态知识迁移。摘要: 视觉语言模型(VLMs)在联合视觉语言理解方面表现出卓越的能力,但其大规模特性在资源受限场景下的部署构成了重大挑战。知识蒸馏(KD)提供了一种在不增加模型规模或数据需求的情况下提升模型能力的可行途径,从而提高部署效率。然而,将KD应用于VLMs面临模态特定监督的挑战:尽管VLMs中的多模态知识在语言空间内融合,但现有方法分别监督每个模态,未明确解决多模态对齐问题,导致多模态知识迁移不一致。为此,我们提出了Switch-KD,一个视觉切换蒸馏框架,将视觉语言知识迁移统一在共享的文本概率空间中。Switch-KD包含两个关键组件:(1)视觉切换蒸馏,将学生的视觉输出切换到教师的语言路径,构建跨模态概率参考,以实现隐式视觉知识迁移;(2)动态双向Logits差(DBiLD)损失,通过双向监督自适应地对齐信息概率区域,同时保持教师和学生模型的分布结构。在Switch-KD的指导下,一个0.5B的TinyLLaVA有效地从其3B教师模型中蒸馏了丰富的多模态知识,在10个多模态基准测试中平均提升了3.6分,且无需任何架构修改。链接: https://arxiv.org/pdf/2604.14629
Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems
中文标题: 深入探索Claude Code:当今与未来AI智能体系统的设计空间关键词: Claude Code,AI Agent Systems,Architecture Analysis,Design Principles,Safety,Context Management,Extensibility简介: 该研究分析了Claude Code的架构,识别出五种驱动性人类价值观,并将其通过十三项设计原则追踪至具体实现选择,包括核心while-loop架构以及支持安全性、上下文管理和可扩展性的配套系统。摘要: Claude Code是一种代理式编码工具,可以代表用户运行shell命令、编辑文件和调用外部服务。本研究通过分析公开可用的TypeScript源代码来描述其综合架构,并将其与OpenClaw进行比较,后者是一个独立的开源AI智能体系统,在不同的部署背景下回答了许多相同的设计问题。我们的分析确定了驱动架构的五种人类价值观、理念和需求(人类决策权威、安全与保障、可靠执行、能力放大和情境适应性),并通过十三项设计原则将其追踪至具体实现选择。系统的核心是一个简单的while循环,调用模型、运行工具并重复。然而,大部分代码位于该循环周围的系统中:具有七种模式和基于ML的分类器的权限系统、用于上下文管理的五层压缩管道、四种可扩展性机制(MCP、插件、技能和钩子)、具有工作树隔离的子代理委派机制以及面向追加的会话存储。与多通道个人助手网关OpenClaw的比较表明,当部署背景发生变化时,相同的重复性设计问题会产生不同的架构答案:从每操作安全分类到周边级访问控制,从单个CLI循环到网关控制平面内的嵌入式运行时,以及从上下文窗口扩展到网关级能力注册。最后,基于最近的实证、架构和政策文献,我们确定了未来智能体系统的六个开放设计方向。链接: https://arxiv.org/pdf/2604.14228
上海一橙智能科技有限公司,是上海一橙网络科技股份有限公司旗下专注于AI与大模型应用落地的核心企业,提供从平台构建到AI场景化应用落地的全栈服务。聚焦大模型应用、数字人交互、语音图像分析等核心领域,打造了覆盖智能外呼、智能客服、智能知识管理、智能陪练、多模态交互、图像语音质检等场景的AI产品体系,已成功为通信、能源等领域头部央国企客户打造出多个AI落地应用。


夜雨聆风