乐于分享
好东西不私藏

4B参数一统文档智能!百度Qianfan-OCR凭啥碾压多阶段OCR?

4B参数一统文档智能!百度Qianfan-OCR凭啥碾压多阶段OCR?

4B参数一统文档智能!百度Qianfan-OCR凭啥碾压多阶段OCR?

AI前沿 | 顶会论文解读

论文标题:Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

作者团队:百度千帆团队

发表会议:ArXiv 2026

核心结论:提出4B参数端到端文档智能模型,统一文档解析、布局分析与理解能力;创新Layout-as-Thought机制补全端到端架构布局分析短板;在OmniDocBench等多基准登顶,KIE任务超越Gemini-3.1Pro等旗舰模型

📄 论文摘要

传统OCR系统面临成本、精度与能力的三重权衡:多阶段流水线需复杂组件串联,易产生错误传播;端到端模型缺乏显式布局分析能力;通用大模型在结构化文档任务上精度不足。百度千帆团队提出Qianfan-OCR,一款4B参数的端到端文档智能模型,首次在单一视觉语言架构内统一文档解析、布局分析与语义理解。创新的Layout-as-Thought机制通过<think>令牌触发可选思考阶段,生成结构化布局表示后再输出最终结果,既补全了端到端架构的布局分析能力,又能在复杂文档上提升精度。该模型在OmniDocBench v1.5和OlmOCR Bench等端到端模型中排名第一,在KIE基准上超越Gemini-3.1Pro等旗舰模型,现已通过百度智能云千帆平台开放使用。

🏗️ 总架构设计

Qianfan-OCR采用千帆VL框架的多模态桥接架构,包含三大核心组件:Qianfan-ViT视觉编码器支持任意分辨率输入(最大4K),动态将图像切割为448×448补丁;Qwen3-4B语言模型 backbone具备32K原生上下文窗口,采用Grouped-Query Attention平衡推理能力与部署效率;轻量级跨模态适配器通过两层MLP实现视觉与语言特征空间的对齐。与传统两阶段流水线不同,Qianfan-OCR将所有处理统一在单一模型内,避免了多阶段间的错误传播与视觉上下文丢失,同时支持灵活的任务控制。

图1:Qianfan-OCR端到端架构与传统两阶段OCR流水线对比

💡 核心创新点

端到端统一文档智能架构:首次将文档解析、布局分析、文本识别与语义理解统一在单一视觉语言模型内,彻底消除传统多阶段流水线的错误传播问题。模型直接输出Markdown格式结果,支持表格提取、图表理解、文档问答等全流程任务,无需额外组件串联。

Layout-as-Thought布局推理机制:通过<think>令牌触发可选思考阶段,模型先生成包含边界框、元素类型与阅读顺序的结构化布局表示,再生成最终输出。该机制不仅补全了端到端架构缺失的布局分析能力,还能为复杂文档提供结构先验,在多列文本、乱序元素等场景下显著提升识别精度。

OCR与理解能力深度融合:突破传统OCR仅能字符识别的局限,将文档理解能力内置到模型中。在文档问答、图表理解等任务上表现媲美通用大模型,同时保持OCR专业模型的高精度。实验证明,两阶段OCR+LLM流水线在图表理解任务上近乎失效,而Qianfan-OCR能保持88.1%的ChartQA准确率。

图2:Layout-as-Thought在数学试卷上的应用示例

🔬 关键方法与实验结果

模型采用四阶段渐进式训练策略:Stage1跨模态对齐(50B tokens)、Stage2基础OCR训练(2T tokens)、Stage3领域增强(800B tokens)、Stage4指令调优。针对OCR任务构建六大数据合成流水线,覆盖文档解析、KIE、复杂表格、图表理解等场景,总数据量超过2.85T tokens。实验在四类基准上全面验证,包含OCR特定基准、通用OCR基准、文档理解基准与KIE基准。

图3:OmniDocBench v1.5端到端模型性能对比

实验结果显示,Qianfan-OCR在端到端模型中表现突出:在OmniDocBench v1.5上以93.12分排名第一,超过DeepSeek-OCR-v2(91.09)与Gemini-3 Pro(90.33);OlmOCR Bench获得79.8分,仅次于顶级流水线系统PaddleOCR-VL(80.0)。在KIE任务上表现尤为亮眼,在五公开基准上平均得分87.9,超过Gemini-3.1Pro(79.2)与Qwen3-VL-235B-A22B(84.2)。推理效率方面,W8A8量化后单A100 GPU可达1.024页/秒,接近PaddleOCR-VL的1.224页/秒。

模型 OmniDocBench总分 OlmOCR Bench总分 KIE平均得分 ChartQA准确率
PaddleOCR-VL 94.50 80.0 无原生能力 无原生能力
Gemini-3 Pro 90.33 无数据 77.0 无数据
Qianfan-OCR 93.12 79.8 87.9 88.1%

🚀 应用价值与展望

Qianfan-OCR为文档智能领域提供了全新的技术范式,其端到端统一架构显著降低了部署复杂度与维护成本,同时保持了专业级OCR精度与强大的文档理解能力。在企业场景中可广泛应用于票据识别、合同审核、文档数字化等任务,特别是KIE任务上的优势使其在金融、政务等领域具备极高实用价值。未来,团队将探索Layout-as-Thought机制在更多任务上的应用,优化模型在资源受限环境下的部署效率,并拓展视频OCR、3D文本识别等更具挑战性的场景。

📚 论文原文:https://arxiv.org/pdf/2603.13398

💻 相关资源:https://github.com/baidubce/Qianfan-VL

🎯 核心亮点:4B参数端到端统一模型,Layout-as-Thought布局推理机制,多基准超越旗舰模型,兼顾精度与效率

⭐ 觉得文章有用?欢迎分享给更多朋友!
💡 关注公众号,获取更多顶会论文深度分析
🔥 每日精选AI论文,解读最新技术进展

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 4B参数一统文档智能!百度Qianfan-OCR凭啥碾压多阶段OCR?

猜你喜欢

  • 暂无文章