每周AI论文速递(260413-260417)

WildDet3D: Scaling Promptable 3D Detection in the Wild

[WildDet3D：开放式可提示3D检测的规模化扩展](https://arxiv.org/abs/2604.08626)

一个统一的3D目标检测框架结合大规模数据集，支持多种提示类型和几何线索集成，实现了开放世界检测。AI生成摘要从单张图像理解3D物体是空间智能的基石。实现这一目标的关键一步是单目3D目标检测——从输入的RGB图像中恢复物体的范围、位置和方向。为了在开放世界中实用，这样的检测器必须泛化到封闭类别之外，支持多种提示模态，并在可用时利用几何线索。进展受到两个瓶颈的限制：现有方法专为单一提示类型设计，缺乏融合额外几何线索的机制；当前的3D数据集仅涵盖受控环境中的狭窄类别，限制了开放世界迁移。在本工作中，我们解决了这两个差距。首先，我们介绍了WildDet3D，一个统一的几何感知架构，原生接受文本、点和框提示，并可在推理时融合辅助深度信号。其次，我们提出了WildDet3D-Data，这是迄今为止最大的开放3D检测数据集，通过从现有2D标注生成候选3D边界框并仅保留人工验证的结果构建而成，涵盖了多样化的真实场景中的13.5K类别，超过1M图像。WildDet3D在多个基准和设置上建立了新的最先进水平。在开放世界设置中，它在新引入的WildDet3D-Bench上使用文本和框提示实现了22.6/24.8 AP3D。在Omni3D上，使用文本和框提示分别达到34.2/36.4 AP3D。在零样本评估中，它在Argoverse 2和ScanNet上实现40.3/48.9 ODS。值得注意的是，在推理时融合深度线索可带来显著的额外增益（在各设置中平均+20.7 AP）。

Seedance 2.0: Advancing Video Generation for World Complexity

[Seedance 2.0：推进面向世界复杂性的视频生成](https://arxiv.org/abs/2604.14148)

Seedance 2.0是一个多模态音视频生成模型，支持文本、图像、音频和视频输入，具有改进的生成质量和速度。AI生成摘要 Seedance 2.0是一个新的原生多模态音视频生成模型，于2026年2月初在中国正式发布。与其前身Seedance 1.0和1.5 Pro相比，Seedance 2.0采用统一、高效的大规模架构进行多模态音视频联合生成。这使其能够支持四种输入模态：文本、图像、音频和视频，集成了目前业界最全面的多模态内容引用和编辑功能套件之一。它在音频和视频生成的所有关键子维度上实现了显著的全面提升。在专家评估和公共用户测试中，该模型展示了与领域领先水平相当的性能。Seedance 2.0支持直接生成4到15秒的音视频内容，原生输出分辨率为480p和720p。对于作为参考的多模态输入，其当前开放平台支持最多3个视频片段、9张图像和3个音频片段。此外，我们提供了Seedance 2.0 Fast版本，这是Seedance 2.0的加速变体，旨在为低延迟场景提升生成速度。Seedance 2.0对其基础生成能力和多模态生成性能带来了显著改进，为最终用户带来了增强的创意体验。

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

[ClawGUI：用于训练、评估和部署GUI智能体的统一框架](https://arxiv.org/abs/2604.11784)

ClawGUI提供了一个开源框架，通过统一的强化学习、标准化评估和跨平台部署能力来解决GUI智能体开发中的关键挑战。AI生成摘要 GUI智能体通过视觉界面而非程序化API驱动应用程序，通过点击、滑动和按键与任意软件交互，触达基于CLI的智能体无法触及的长尾应用。然而，该领域的进展更多地受到缺乏连贯的全栈基础设施的瓶颈制约，而非建模能力：在线RL训练受环境不稳定性和封闭管道的困扰，评估协议在不同工作中悄然漂移，训练好的智能体很少能真正触达到真实设备上的真实用户。我们提出了ClawGUI，一个在单一工具包内解决这三个差距的开源框架。ClawGUI-RL提供了第一个开源GUI智能体RL基础设施，经验证支持并行虚拟环境和真实物理设备，将GiGPO与过程奖励模型集成以实现密集的步骤级监督。ClawGUI-Eval在6个基准和11+模型上执行完全标准化的评估管道，对官方基线实现95.8%的复现率。ClawGUI-Agent通过12+聊天平台将训练好的智能体带到Android、HarmonyOS和iOS，具有混合CLI-GUI控制和持久个性化记忆。在该管道中端到端训练的ClawGUI-2B在MobileWorld GUI-Only上实现17.1%成功率，比同规模的MAI-UI-2B基线高出6.0%。

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

[过去并非过去：记忆增强动态奖励塑形](https://arxiv.org/abs/2604.11297)

MEDS是一个记忆增强动态奖励塑形框架，通过识别和惩罚历史行为信号的聚类中的循环错误模式，改进了大语言模型强化学习中的采样多样性。AI生成摘要尽管大语言模型的强化学习取得了成功，但一个常见的失败模式是采样多样性降低，策略重复生成相似的错误行为。经典的熵正则化鼓励在当前策略下的随机性，但并不明确阻止不同轨迹中的循环失败模式。我们提出了MEDS，一个将历史行为信号纳入奖励设计的记忆增强动态奖励塑形框架。通过存储和利用中间模型表示，我们捕获过去轨迹的特征，并使用基于密度的聚类来识别频繁重复的错误模式。被分配到更普遍错误簇的轨迹会受到更重的惩罚，鼓励更广泛的探索，同时减少重复错误。在五个数据集和三个基础模型上，MEDS始终优于现有基线，实现高达4.13个pass@1点和4.37个pass@128点的增益。使用基于LLM的注释和定量多样性指标的额外分析表明，MEDS在采样期间增加了行为多样性。

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

[QuanBench+：基于LLM的量子代码生成的统一多框架基准](https://arxiv.org/abs/2604.08570)

QuanBench+使用功能测试和基于修复的反馈评估大语言模型在多个框架上的量子代码生成，揭示了显著进展但对框架特定知识的持续依赖。AI生成摘要大语言模型（LLM）越来越多地用于代码生成，但量子代码生成仍然主要在单一框架内评估，难以将量子推理与框架熟悉度区分开来。我们介绍了QuanBench+，一个跨越Qiskit、PennyLane和Cirq的统一基准，包含42个对齐任务，涵盖量子算法、门分解和态制备。我们使用可执行的功能测试评估模型，报告Pass@1和Pass@5，并对概率输出使用基于KL散度的接受标准。我们还研究基于反馈修复后的Pass@1，模型可以在运行时错误或错误答案后修订代码。在各个框架中，最强的一次性得分在Qiskit中达到59.5%，在Cirq中达到54.8%，在PennyLane中达到42.9%；通过基于反馈的修复，最佳得分分别提高到83.3%、76.2%和66.7%。这些结果显示了明显进展，但也表明可靠的多框架量子代码生成仍然未解决，并且仍然强烈依赖于框架特定知识。

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

[GameWorld：迈向多模态游戏智能体的标准化和可验证评估](https://arxiv.org/abs/2604.07429)

GameWorld提出了一个标准化基准，用于评估视频游戏中的多模态大语言模型智能体，具有多样化的游戏和经过验证的指标以进行全面评估。AI生成摘要迈向用于真实世界交互的具身通用智能体，多模态大语言模型（MLLM）智能体仍然面临挑战性延迟、稀疏反馈和不可逆转错误的困扰。视频游戏提供了理想的测试环境，具有丰富的视觉观察和闭环交互，需要细粒度感知、长时序规划和精确控制。然而，系统地评估这些能力目前受到异构动作接口和启发式验证的阻碍。为此，我们介绍了GameWorld，一个专门设计用于在浏览器环境中作为通用游戏智能体对MLLM进行标准化和可验证评估的基准。研究了两种游戏智能体接口：（i）直接发出键盘和鼠标控制的计算机使用智能体，以及（ii）通过确定性语义动作解析在语义动作空间中行动的通用多模态智能体。GameWorld包含34个多样化的游戏和170个任务，每个任务都配有状态可验证的指标以进行基于结果的评估。18个模型-接口对的结果表明，即使是表现最好的智能体也远未在视频游戏上达到人类能力。重复的完整基准重新运行的广泛实验证明了基准的稳健性，而对实时交互、上下文记忆敏感性和动作有效性的进一步研究暴露了游戏智能体面临的更多挑战。总之，通过提供标准化、可验证和可复现的评估框架，GameWorld为推进多模态游戏智能体及其他研究奠定了坚实基础。项目页面位于https://gameworld-bench.github.io。

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

[RationalRewards：推理奖励在训练和测试时扩展视觉生成](https://arxiv.org/abs/2604.11626)

训练奖励模型以生成多维批评，通过增强的强化学习奖励和测试时优化循环改进视觉生成，在减少训练数据需求的同时实现最先进的性能。AI生成摘要大多数视觉生成的奖励模型将丰富的人类判断简化为单一的、无法解释的分数，丢弃了偏好的基础推理。我们表明，教导奖励模型在评分之前产生明确的多维批评，将它们从被动评估者转变为主动优化工具，通过两种互补方式改进生成器：在训练时，结构化的理由为强化学习提供可解释的、细粒度的奖励；在测试时，生成-批评-优化循环将批评转化为有针对性的提示修订，无需任何参数更新即可改进输出。为了在没有昂贵的理由注释的情况下训练这样的奖励模型，我们引入了偏好的理由化（PARROT），一个原则性框架，通过锚定生成、一致性过滤和蒸馏，从现成的偏好数据中恢复高质量的推理。由此产生的模型RationalRewards（8B）在开源奖励模型中实现了最先进的偏好预测，与Gemini-2.5-Pro竞争，同时使用的训练数据比可比基线少10-20倍。作为RL奖励，它始终改进文本到图像和图像编辑生成器，超过标量替代方案。最引人注目的是，其测试时的批评和优化循环在几个基准上与基于RL的微调相匹配或超过，表明结构化推理可以解锁现有生成器中的潜在能力，而次优提示无法激发这些能力。

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

[KnowRL：通过最小充分知识指导的强化学习提升LLM推理](https://arxiv.org/abs/2604.12627)

KnowRL是一个知识指导的强化学习框架，通过受约束子集搜索和解决剪枝交互悖论来优化紧凑的、交互感知的指导子集，从而改进语言模型中的推理。AI生成摘要 RLVR改进了大语言模型的推理，但其有效性通常受到困难问题上严重奖励稀疏性的限制。最近的基于提示的RL方法通过注入部分解决方案或抽象模板来缓解稀疏性，但它们通常通过添加更多Token来扩展指导，这引入了冗余、不一致和额外的训练开销。我们提出了KnowRL（知识指导的强化学习），一个将提示设计视为最小充分指导问题的RL训练框架。在RL训练期间，KnowRL将指导分解为原子知识点（KP），并使用受约束子集搜索（CSS）为训练构建紧凑的、交互感知的子集。我们进一步识别了一个剪枝交互悖论——移除一个KP可能有帮助，而移除多个这样的KP可能会造成伤害——并在这种依赖结构下显式优化鲁棒的子集策划。我们从OpenMath-Nemotron-1.5B训练了KnowRL-Nemotron-1.5B。在1.5B规模的八个推理基准上，KnowRL-Nemotron-1.5B始终优于强RL和提示基线。在推理时没有KP提示的情况下，KnowRL-Nemotron-1.5B达到70.08的平均准确率，已经超过Nemotron-1.5B +9.63点；通过选定的KP，性能提高到74.16，在这个规模上建立了新的最先进水平。模型、策划的训练数据和代码在https://github.com/Hasuer/KnowRL公开可用。

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

[FORGE：制造场景的细粒度多模态评估](https://arxiv.org/abs/2604.07413)

FORGE引入了一个高质量的多模态制造数据集，具有细粒度的领域语义，以评估MLLM在真实世界任务上的表现，揭示了领域特定知识而非视觉基础限制了性能，并证明了对结构化注释的监督微调显著提高了准确性。AI生成摘要制造业越来越多地采用多模态大语言模型（MLLM）从简单感知转向自主执行，但当前的评估未能反映真实世界制造环境的严格要求。进展受到数据稀缺和现有数据集中缺乏细粒度领域语义的阻碍。为了弥合这一差距，我们介绍了FORGE。我们首先构建了一个高质量的多模态数据集，结合了真实世界的2D图像和3D点云，并使用细粒度的领域语义（例如，确切的型号）进行注释。然后，我们在三个制造任务上评估了18个最先进的MLLM，即工件验证、结构表面检查和装配验证，揭示了显著的性能差距。与常规理解相反，瓶颈分析表明，视觉基础不是主要的限制因素。相反，不足的领域特定知识是关键瓶颈，为未来研究明确了方向。除了评估之外，我们表明我们的结构化注释可以作为可操作的训练资源：在我们的数据上对紧凑的3B参数模型进行监督微调，在保留的制造场景上准确率相对提高高达90.8%，为领域适应的制造MLLM提供了初步证据。代码和数据集可在https://ai4manufacturing.github.io/forge-web获取。

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

[HY-World 2.0：用于重建、生成和模拟3D世界的多模态世界模型](https://arxiv.org/abs/2604.14268)

HY-World 2.0是一个多模态世界模型框架，使用专门的全景生成、轨迹规划、世界扩展和组合模块，以及用于交互式3D探索的增强渲染平台，从多样化的输入生成高保真3D高斯泼溅场景。AI生成摘要我们介绍了HY-World 2.0，一个推进我们先前项目HY-World 1.0的多模态世界模型框架。HY-World 2.0容纳多样化的输入模态，包括文本提示、单视图图像、多视图图像和视频，并生成3D世界表示。通过文本或单视图图像输入，模型执行世界生成，合成高保真的、可导航的3D高斯泼溅（3DGS）场景。这是通过四阶段方法实现的：（a）使用HY-Pano 2.0进行全景生成，（b）使用WorldNav进行轨迹规划，（c）使用WorldStereo 2.0进行世界扩展，以及（d）使用WorldMirror 2.0进行世界组合。具体而言，我们引入了关键创新以增强全景保真度，实现3D场景理解和规划，并升级WorldStereo（我们的基于关键帧的视图生成模型）具有一致的内存。我们还升级了WorldMirror（一个用于通用3D预测的前馈模型），通过改进模型架构和学习策略，实现从多视图图像或视频的世界重建。此外，我们介绍了WorldLens，一个高性能的3DGS渲染平台，具有灵活的引擎无关架构、自动IBL照明、高效碰撞检测和训练-渲染协同设计，支持角色交互的3D世界的交互式探索。广泛的实验表明，HY-World 2.0在开源方法中的几个基准上实现了最先进的性能，提供与闭源模型Marble相当的结果。我们发布了所有模型权重、代码和技术细节，以促进可复现性并支持3D世界模型的进一步研究。

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

[重新思考大语言模型的在线策略蒸馏：现象学、机制和配方](https://arxiv.org/abs/2604.13016)

大语言模型中的在线策略蒸馏动态取决于教师和学生模型之间兼容的思维模式，成功的蒸馏以在学生访问状态上的高概率Token对齐为特征，并要求教师提供学生训练数据之外的新能力。AI生成摘要在线策略蒸馏（OPD）已成为大语言模型后训练的核心技术，但其训练动态仍然知之甚少。本文对OPD动态和机制进行了系统研究。我们首先确定了两个条件支配OPD成功或失败：（i）学生和教师应该共享兼容的思维模式；（ii）即使具有一致的思维模式和更高的分数，教师必须提供学生在训练期间未见过的真正新能力。我们通过从弱到强的反向蒸馏验证了这些发现，表明同家族的1.5B和7B教师从学生的角度来看在分布上不可区分。深入探究Token级机制，我们表明成功的OPD以学生访问状态上的高概率Token的逐步对齐为特征，这是一个小的共享Token集合，集中了大部分概率质量（97%-99%）。我们进一步提出了两种恢复失败OPD的实用策略：离策略冷启动和教师对齐的提示选择。最后，我们表明OPD明显的密集Token级奖励免费午餐是有代价的，引发了OPD是否可以扩展到长时序蒸馏的问题。

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

[Transformer中的注意力汇：利用、解释和缓解综述](https://arxiv.org/abs/2604.10098)

Transformer面临注意力汇现象的挑战，其中过多的注意力集中在无信息的Token上，影响可解释性和性能，需要对基本使用、机制理解和战略缓解方法进行综合研究。AI生成摘要作为现代机器学习的基础架构，Transformer在各种AI领域推动了显著进展。尽管它们具有变革性影响，但各种Transformer中的一个持续挑战是注意力汇（AS），其中不成比例的注意力集中在少量特定的但无信息的Token上。AS使可解释性复杂化，显著影响训练和推理动态，并加剧了幻觉等问题。近年来，大量研究致力于理解和利用AS。然而，缺乏一个系统地整合AS相关研究并为未来进步提供指导的综合综述。为了解决这一差距，我们提出了第一个关于AS的综述，围绕定义当前研究格局的三个关键维度构建：基本利用、机制解释和战略缓解。我们的工作通过澄清关键概念和指导研究人员了解领域的演变和趋势做出了关键贡献。我们设想这个综述将成为决定性资源，使研究人员和从业者能够在当前的Transformer范式中有效管理AS，同时激发下一代Transformer的创新进步。本文的论文列表可在https://github.com/ZunhaiSu/Awesome-Attention-Sink获取。

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

[OmniShow：统一人机交互视频生成的多模态条件](https://arxiv.org/abs/2604.11804)

OmniShow是一个人机交互视频生成的端到端框架，通过统一的条件和注意力机制有效集成多种模态，同时通过解耦训练策略解决数据稀缺问题。AI生成摘要在这项工作中，我们研究人机交互视频生成（HOIVG），旨在根据文本、参考图像、音频和姿态合成高质量的人机交互视频。这项任务在现实世界应用中具有重要的实用价值，例如电子商务演示、短视频制作和交互式娱乐。然而，现有方法无法满足所有这些必要条件。我们提出了OmniShow，一个专为这一实用但具有挑战性的任务量身定制的端到端框架，能够协调多模态条件并提供行业级性能。为了克服可控性和质量之间的权衡，我们引入了统一通道级条件以实现高效的图像和姿态注入，以及门控局部上下文注意力以确保精确的音频-视觉同步。为了有效解决数据稀缺问题，我们开发了一种解耦-然后联合训练策略，利用多阶段训练过程和模型合并来有效地利用异构子任务数据集。此外，为了填补该领域的评估空白，我们建立了HOIVG-Bench，一个专门且全面的HOIVG基准。广泛的实验表明，OmniShow在各种多模态条件设置中实现了整体最先进的性能，为新兴的HOIVG任务设定了坚实的标准。

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

[SpatialEvo：通过确定性几何环境自进化空间智能](https://arxiv.org/abs/2604.14144)

SpatialEvo是一个用于3D空间推理的自进化框架，使用确定性几何环境提供客观反馈，实现高效训练而不依赖模型共识。AI生成摘要对三维场景的空间推理是具身智能的核心能力，但连续模型改进仍然受到几何注释成本的瓶颈制约。自进化范式提供了一条有希望的路径，但它依赖模型共识来构建伪标签，导致训练强化而不是纠正模型自己的几何错误。我们识别了3D空间推理独特的一个属性，可以绕过这一限制：基本真理是底层几何的确定性后果，可以从点云和相机姿势精确计算，而无需任何模型参与。基于这一见解，我们提出了SpatialEvo，一个用于3D空间推理的自进化框架，以确定性几何环境（DGE）为中心。DGE在明确的几何验证规则下形式化了16个空间推理任务类别，并将未注释的3D场景转换为无噪声交互式神谕，用客观的物理反馈替换模型共识。单个共享参数策略在DGE约束下在提问者和解决者角色中协同进化：提问者生成基于场景观察的物理有效空间问题，而解决者针对DGE验证的基本真理得出精确答案。任务自适应调度器内生地将训练集中在模型最弱的类别上，产生无需手动设计的动态课程。在九个基准上的实验表明，SpatialEvo在3B和7B规模上实现了最高的平均得分，在空间推理基准上持续改进，并且在一般视觉理解上没有下降。

EXAONE 4.5 Technical Report

[EXAONE 4.5技术报告](https://arxiv.org/abs/2604.08644)

EXAONE 4.5是一个开放权重的视觉语言模型，将视觉编码器集成到EXAONE 4.0中，通过针对性的数据策划和扩展的上下文长度实现增强的文档理解和通用语言能力。AI生成摘要本技术报告介绍了EXAONE 4.5，这是LG AI Research发布的第一个开放权重的视觉语言模型。EXAONE 4.5通过将专用视觉编码器集成到现有的EXAONE 4.0框架中来架构，在视觉和文本模态上实现原生多模态预训练。该模型在经过精心策划的大规模数据上进行训练，特别强调与LG战略应用领域相一致的以文档为中心的语料库。这种有针对性的数据设计使文档理解和相关任务的性能显著提高，同时也带来通用语言能力的广泛改进。EXAONE 4.5将上下文长度扩展到最多256K个Token，促进长上下文推理和企业级用例。比较评估表明，EXAONE 4.5在通用基准中实现竞争性能，同时在文档理解和韩语上下文推理方面超过类似规模的最先进模型。作为LG持续努力实现实际工业部署的一部分，EXAONE 4.5设计为通过额外的领域和应用场景持续扩展，以推进AI实现更美好的生活。

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

[OccuBench：通过语言世界模型评估真实世界专业任务中的AI智能体](https://arxiv.org/abs/2604.10866)

OccuBench提出了一个全面的基准，使用语言世界模型模拟真实世界环境，在100个专业领域评估AI智能体，并具有可控的故障注入。AI生成摘要 AI智能体被期望在数百个职业领域执行专业工作（从急诊室分诊到核反应堆安全监控到海关进口处理），但现有的基准只能在少数存在公共环境的领域中评估智能体。我们介绍了OccuBench，一个跨越10个行业类别和65个专业领域的100个真实世界专业任务场景的基准，由语言世界模型（LWM）实现，通过LLM驱动的工具响应生成模拟特定领域的环境。我们的多智能体合成管道自动生成具有可保证可解性、校准难度和文档基础多样性的评估实例。OccuBench沿着两个互补维度评估智能体：跨专业领域的任务完成和可控故障注入下的环境鲁棒性（显式错误、隐式数据退化和混合故障）。我们评估了8个模型系列的15个前沿模型，发现：（1）没有单一模型主导所有行业，因为每个模型都有独特的职业能力概况；（2）隐式故障（截断数据、缺失字段）比显式错误（超时、500错误）和混合故障更难，因为它们缺乏明显的错误信号，需要智能体独立检测数据退化；（3）更大的模型、更新的代和更高的推理努力始终提高性能。GPT-5.2从最小到最大推理努力提高了27.5点；（4）强大的智能体不一定是强大的环境模拟器。模拟器质量对于基于LWM的评估可靠性至关重要。OccuBench提供了对AI智能体在专业职业任务上的首次系统性跨行业评估。

Strips as Tokens: Artist Mesh Generation with Native UV Segmentation

[Strip as Token：具有原生UV分段的艺术家网格生成](https://arxiv.org/abs/2604.09132)

SATO引入了一种新颖的Token排序策略，用于自回归Transformer，通过基于三角条带的序列在网格生成中保留边流和语义布局。AI生成摘要自回归Transformer的最新进展展示了生成艺术家质量网格的显著潜力。然而，现有方法采用的Token排序策略通常无法达到专业艺术家标准，其中基于坐标的排序导致效率低下的长序列，而基于补丁的启发式破坏了高质量建模所需的连续边流和结构规律性。为了解决这些局限性，我们提出了Strip as Token（SATO），一个受三角条带启发的新颖框架，具有Token排序策略。通过将序列构造为明确编码UV边界的连接面链，我们的方法自然保留了艺术家创建网格的特征性有组织边流和语义布局。这种公式化的一个关键优势是其统一表示，使相同的Token序列可以被解码为三角形或四边形网格。这种灵活性促进了两种数据类型的联合训练：大规模三角形数据提供了基本结构先验，而高质量四边形数据增强了输出的几何规律性。广泛的实验表明，SATO在几何质量、结构连贯性和UV分段方面始终优于先前的方法。

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

[Matrix-Game 3.0：具有长时程记忆的实时和流式交互世界模型](https://arxiv.org/abs/2604.08995)

Matrix-Game 3.0通过记忆增强的扩散模型增强交互式视频生成，实现具有长期时间一致性的实时720p视频合成。AI生成摘要随着交互式视频生成的进步，扩散模型越来越多地展示了其作为世界模型的潜力。然而，现有方法仍然难以同时实现支持记忆的长期时间一致性和高分辨率实时生成，限制了它们在真实场景中的适用性。为了解决这个问题，我们提出了Matrix-Game 3.0，一个为720p实时长形式视频设计的记忆增强交互世界模型。在Matrix-Game 2.0的基础上，我们在数据、模型和推理方面引入了系统改进。首先，我们开发了一个升级的工业级无限数据引擎，集成基于虚幻引擎的合成数据、从AAA游戏的大规模自动收集和真实世界视频增强，以大规模生产高质量的视频-姿态-动作-提示四元组数据。其次，我们提出了一个用于长期一致性的训练框架：通过对预测残差进行建模并在训练期间重新注入不完美的生成帧，基础模型学习自我纠正；同时，相机感知的记忆检索和注入使基础模型能够实现长时空时空一致性。第三，我们设计了一种基于分布匹配蒸馏（DMD）的多段自回归蒸馏策略，结合模型量化和VAE解码器剪枝，以实现高效的实时推理。实验结果表明，Matrix-Game 3.0在720p分辨率下使用5B模型实现了高达40 FPS的实时生成，同时在分钟长的序列上保持稳定的记忆一致性。扩展到2x14B模型进一步提高了生成质量、动态和泛化。我们的方法为工业级可部署世界模型提供了一条实用途径。

你好，我是叶子，9年Java开发老司机，待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD，但现在工作重心逐渐往中间件开发转移。喜欢折腾技术，AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识，我都希望能和大家共同学习进步，如果文章有用，还请大家点击关注，希望我们能一起在技术的道路上走的更远！