乐于分享
好东西不私藏

Meta AI Tuna-2:完全移除视觉编码器,仅靠像素嵌入的统一多模态模型

Meta AI Tuna-2:完全移除视觉编码器,仅靠像素嵌入的统一多模态模型

论文标题: Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

作者: Zhiheng Liu 等,Meta AI、香港大学、Waterloo 大学

项目主页: tuna-ai.org/tuna-2

问题与动机

统一多模态模型(UMM)的目标是在单一框架内同时支持视觉理解和图像生成。

但当前主流方案在编码视觉输入时普遍依赖两类预训练编码器:VAE 负责压缩图像到潜在空间做生成,CLIP/SigLIP 负责提取语义特征做理解。

问题在于这两类编码器是独立训练的——一个面向重建、一个面向语义对齐——它们输出的视觉表征在理解和生成之间存在本质不匹配。

而且编码器引入了固定分辨率、有限细粒度等归纳偏置,让模型无法端到端地从原始像素直接学习。

Tuna-2 要回答一个核心问题:能不能彻底去掉预训练视觉编码器,构建一个从原始像素直接建模的统一多模态模型?

核心方法

Figure 1 | Tuna→Tuna-R→Tuna-2 架构演化:从 VAE+encoder(Tuna)到仅保留 representation encoder(Tuna-R),再到完全免编码器仅用 patch embedding(Tuna-2)的逐步简化过程。右侧柱状图展示性能对比。
Figure 3 | Masking-based feature learning 方案示意。理解任务中 learnable mask token 替换部分被掩码的图像 patch;生成任务中对含噪图像做 masked prediction。

Tuna-2 的最终架构异常简洁:原始图像 → patchify 层(可学习的线性投影)→ 视觉 token + 文本 token → 单一 Transformer decoder。

理解输出走语言模型头做自回归文本,生成输出走 flow matching 头直接在像素空间生成图像。

与现有做法的本质差别在于:Tuna-2 不需要专门的 encoder 来”理解图像”,也不需要用 VAE 压缩到潜在空间再做生成——完整模型就是一个 Transformer,从输入到输出端到端优化。

Tuna-2 是在 Tuna 架构上逐步简化的结果。从最复杂的 Tuna(VAE encoder + LLM decoder + flow matching head)到去掉 VAE 的 Tuna-R(仅保留 SigLIP 2),再到连 representation encoder 也去掉的 Tuna-2——只剩下 patch embedding + Transformer decoder。

关键设计有两个。一是像素空间 Flow Matching,去掉 VAE 后不能走 latent diffusion 路线,改用 JiT 的像素空间 flow matching 方案。给定源图像和高斯噪声,根据 rectified flow 的线性 schedule 构造含噪样本,模型直接预测干净图像,再用 Euler solver 逐步去噪生成。

二是 Masking 策略,训练时随机选择部分图像 patch 用 learnable mask token 替换,迫使模型从残缺信息中预测完整图像。生成任务上它创造了更难的去噪问题,理解任务上则作为正则化防止模型走捷径。实验显示 masking 对两个任务都有提升。

训练流程

Stage 1 用 5.5 亿图文对预训练 30 万步,其中 70% captioning、30% text-to-image,外加 20% 纯文本数据。

LLM decoder 用的是 Qwen2.5-7B-Instruct,优化器 AdamW,学习率 1e-4。

Stage 2 用 FineVision 13M 图文对话和 OmniEdit 2M 图像编辑数据微调 5 万步。

因为去掉了编码器,Tuna-2 不需要像 Tuna-R 那样增加额外的 connector alignment stage,这是 encoder-free 设计的附带优势。

实验结果

Table 1 | 多模态理解 benchmark 完整对比(Table 1)。Tuna-2 在多数指标上领先 7B 级别 UMM,特别在细粒度任务上优势明显。
Figure 6 | Tuna-R vs Tuna-2 训练动力学曲线。在 OCRBench、MMVP、V* 上 Tuna-R 初期领先但 Tuna-2 后期反超;GenEval 上 Tuna-R 始终领先但差距随训练缩小。

理解能力是这篇论文最有力的部分。在 12 个 benchmark 上,Tuna-2(7B)不仅全面超越带 VAE 的 Tuna(如 MMVP 77.3 vs 70.7、CountBench 81.7 vs 73.5),还超越了带 SigLIP 的 Tuna-R(如 OCRBench 79.7 vs 78.3、V* 59.2 vs 57.6)。

图像生成上小幅落后于带 VAE 的方案(GenEval 0.87 vs 0.90),但 LLM judge 评估中生成多样性大幅领先(48.4% vs Tuna 20.6%、Tuna-R 30.9%)。

图像编辑是短板,但仍优于同期开源方案。

一个关键的训练动力学发现:训练初期 Tuna-R 全面领先(SigLIP 的语义先验提供了热身优势),但 Tuna-2 随着数据量增加逐步追赶并在后期反超。

这表明 encoder-free 的 monolithic 架构在大规模多模态联合预训练下能更充分地受益于数据扩展

在 pixel-centric benchmark(V*、CountBench、VisuLogic)上,Tuna-2 和 Tuna-R 相对 latent-space 方案有显著优势,说明像素空间表征对细粒度视觉感知的价值。

Attention 可视化也验证了 Tuna-2 的跨模态对齐质量——在对抗性测试场景中能准确聚焦正确目标,而其他模型易被文本先验误导。

局限与展望

生成质量仍有差距,说明 representation encoder 的语义先验对生成仍有裨益。

图像编辑上也落后于带编码器的版本。

此外仅在 7B 模型上验证,训练数据全部为 in-house 数据集不可复现,更大参数规模下的表现需要进一步探索。

未来值得关注的方向包括:通过更强的 masking 目标弥补生成上的语义先验差距、在更大规模(30B+)上验证表现、以及将像素空间 UMM 扩展到视频领域。

#Tuna2 #统一多模态模型 #EncoderFree #像素空间建模 #FlowMatching #MetaAI #多模态大模型 #视觉理解 #图像生成

原文链接:https://arxiv.org/pdf/2604.24763