4B参数一统文档智能!百度Qianfan-OCR凭啥碾压多阶段OCR?

4B参数一统文档智能！百度Qianfan-OCR凭啥碾压多阶段OCR？

AI前沿 | 顶会论文解读

论文标题：Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

作者团队：百度千帆团队

发表会议：ArXiv 2026

核心结论：提出4B参数端到端文档智能模型，统一文档解析、布局分析与理解能力；创新Layout-as-Thought机制补全端到端架构布局分析短板；在OmniDocBench等多基准登顶，KIE任务超越Gemini-3.1Pro等旗舰模型

📄 论文摘要

传统OCR系统面临成本、精度与能力的三重权衡：多阶段流水线需复杂组件串联，易产生错误传播；端到端模型缺乏显式布局分析能力；通用大模型在结构化文档任务上精度不足。百度千帆团队提出Qianfan-OCR，一款4B参数的端到端文档智能模型，首次在单一视觉语言架构内统一文档解析、布局分析与语义理解。创新的Layout-as-Thought机制通过<think>令牌触发可选思考阶段，生成结构化布局表示后再输出最终结果，既补全了端到端架构的布局分析能力，又能在复杂文档上提升精度。该模型在OmniDocBench v1.5和OlmOCR Bench等端到端模型中排名第一，在KIE基准上超越Gemini-3.1Pro等旗舰模型，现已通过百度智能云千帆平台开放使用。

🏗️ 总架构设计

Qianfan-OCR采用千帆VL框架的多模态桥接架构，包含三大核心组件：Qianfan-ViT视觉编码器支持任意分辨率输入（最大4K），动态将图像切割为448×448补丁；Qwen3-4B语言模型 backbone具备32K原生上下文窗口，采用Grouped-Query Attention平衡推理能力与部署效率；轻量级跨模态适配器通过两层MLP实现视觉与语言特征空间的对齐。与传统两阶段流水线不同，Qianfan-OCR将所有处理统一在单一模型内，避免了多阶段间的错误传播与视觉上下文丢失，同时支持灵活的任务控制。

图1：Qianfan-OCR端到端架构与传统两阶段OCR流水线对比

💡 核心创新点

▪ 端到端统一文档智能架构：首次将文档解析、布局分析、文本识别与语义理解统一在单一视觉语言模型内，彻底消除传统多阶段流水线的错误传播问题。模型直接输出Markdown格式结果，支持表格提取、图表理解、文档问答等全流程任务，无需额外组件串联。

▪ Layout-as-Thought布局推理机制：通过<think>令牌触发可选思考阶段，模型先生成包含边界框、元素类型与阅读顺序的结构化布局表示，再生成最终输出。该机制不仅补全了端到端架构缺失的布局分析能力，还能为复杂文档提供结构先验，在多列文本、乱序元素等场景下显著提升识别精度。

▪ OCR与理解能力深度融合：突破传统OCR仅能字符识别的局限，将文档理解能力内置到模型中。在文档问答、图表理解等任务上表现媲美通用大模型，同时保持OCR专业模型的高精度。实验证明，两阶段OCR+LLM流水线在图表理解任务上近乎失效，而Qianfan-OCR能保持88.1%的ChartQA准确率。

图2：Layout-as-Thought在数学试卷上的应用示例

🔬 关键方法与实验结果

模型采用四阶段渐进式训练策略：Stage1跨模态对齐（50B tokens）、Stage2基础OCR训练（2T tokens）、Stage3领域增强（800B tokens）、Stage4指令调优。针对OCR任务构建六大数据合成流水线，覆盖文档解析、KIE、复杂表格、图表理解等场景，总数据量超过2.85T tokens。实验在四类基准上全面验证，包含OCR特定基准、通用OCR基准、文档理解基准与KIE基准。

图3：OmniDocBench v1.5端到端模型性能对比

实验结果显示，Qianfan-OCR在端到端模型中表现突出：在OmniDocBench v1.5上以93.12分排名第一，超过DeepSeek-OCR-v2（91.09）与Gemini-3 Pro（90.33）；OlmOCR Bench获得79.8分，仅次于顶级流水线系统PaddleOCR-VL（80.0）。在KIE任务上表现尤为亮眼，在五公开基准上平均得分87.9，超过Gemini-3.1Pro（79.2）与Qwen3-VL-235B-A22B（84.2）。推理效率方面，W8A8量化后单A100 GPU可达1.024页/秒，接近PaddleOCR-VL的1.224页/秒。

模型	OmniDocBench总分	OlmOCR Bench总分	KIE平均得分	ChartQA准确率
PaddleOCR-VL	94.50	80.0	无原生能力	无原生能力
Gemini-3 Pro	90.33	无数据	77.0	无数据
Qianfan-OCR	93.12	79.8	87.9	88.1%

🚀 应用价值与展望

Qianfan-OCR为文档智能领域提供了全新的技术范式，其端到端统一架构显著降低了部署复杂度与维护成本，同时保持了专业级OCR精度与强大的文档理解能力。在企业场景中可广泛应用于票据识别、合同审核、文档数字化等任务，特别是KIE任务上的优势使其在金融、政务等领域具备极高实用价值。未来，团队将探索Layout-as-Thought机制在更多任务上的应用，优化模型在资源受限环境下的部署效率，并拓展视频OCR、3D文本识别等更具挑战性的场景。

📚 论文原文：https://arxiv.org/pdf/2603.13398

💻 相关资源：https://github.com/baidubce/Qianfan-VL

🎯 核心亮点：4B参数端到端统一模型，Layout-as-Thought布局推理机制，多基准超越旗舰模型，兼顾精度与效率

⭐ 觉得文章有用？欢迎分享给更多朋友！
💡 关注公众号，获取更多顶会论文深度分析
🔥 每日精选AI论文，解读最新技术进展