中国做不出长文档OCR?百度Unlimited模型打脸质疑!全球惊艳!

百度开源OCR负责人曾在内部会上表示，传统模型想搞定几十页长文档，根本没戏！

2022年，一位AI开源项目负责人公开表示，“就算给你全套代码，中国也做不出高效的长文档OCR。”

百度开源负责人和那位项目负责人的意思其实都差不多。

负责人虽然讲得有些直接，但他言外之意就是，你们不仅缺乏高效的解码机制，还缺稳定的显存控制，想要突破技术短时间内搞定连续解析是不现实的。

而那位项目负责人更觉得长文档OCR是全球AI的难题之一，汇聚了全球顶尖的硬件和算法手段，中国想要靠自己完成持续处理，还是比较困难的。

他们做出自己判断的核心是中国长文档解析基础薄弱，包括研究积累，注意力机制创新，计算成本控制等诸多方面距离顶级水平都有着较大差距，所以做出了自己的断定。

对于那位开源负责人而言，现有开源工具最顶尖的就是DeepSeek OCR，比着自己至少落后几代距离，而且自己的方案由于固定窗口尺寸限制，买不到新一代的全图注意力架构，因此自己丝毫不用担心被超越的问题，才有处理不了几十页文档的判断。

已有的技术方案更是垄断了开源长文档OCR的解题思路，固定窗口大小或全图注意力机制，几乎成了唯一的标准，想要改只能找它们自己，Unlimited OCR的水平比自己更是有新意，至少领先一代的技术思路，就算给了论文也不一定能搞定。

站在他们的角度去看，确实也没有错，但他们都忽略了中国在造自己的顶级OCR模型上的态度和决心。

没有人才，可以培养人才，种一棵树最好的时间是十年前，其次是现在；没有研究基础，全国各大院校、研究机构都可以从零开始；没有应用场景，全国这么多文档数据就是最好的训练场，企业愿意加大投入。

所以，我们可以看到，2026年6月，百度正式发布Unlimited OCR模型，通过提出参考滑动窗口注意力机制，专门解决长文档连续解析的问题；

2023年以来，多家顶尖深度学习机构纷纷设立OCR专项攻关小组，专门解决各种场景下的文档理解难题。

无独有偶，2025年，各AI大会不断有主题报告，围绕长文档、长视频等长序列感知产业培育一批重大应用场景，集中力量开展长文档解析的攻关。

2020年之前，各企业为了保持数据优势，纷纷投入资源研发OCR技术。

百度、智谱、DeepSeek等公司都在抢这个方向，不追求短期盈利，扶持模型长期、突破性的发展。

百度陆续投入了顶尖的视觉和语言团队，全力攻关R-SWA机制和软遗忘技术，不追求短期量化效果，如今不少难题都成功攻克。

中国AI领域发展速度带来的压迫感，让一些行业巨头一再变换口吻，2022年还说长文档做不好呢，之后几年却是口风突变。

2022年：“物理规则是一样的，长上下文计算成本只会线性增长。”

2023年：“AI模型想要完全读懂几十页文档还是很困难的，需要和全球社区的顶尖方案长期合作。”

2023年深秋：“中国自己研发长文档OCR机制，是在破坏开源社区的基础设施贡献模式。”

2026年Unlimited OCR发布：“中国自己研发长文档OCR，是在重构AI数据入口的能力。”

百度Unlimited OCR模型，谁看过完整文档？至今没有答案；清华拿出新注意力思路，开源全世界都用。

大力出奇迹，是我们最擅长的，但对于中国AI界来说，这才刚刚开始，面对算法的围追堵截，一定要放弃幻想，撸起袖子加油干！