百度开源OCR负责人曾在内部会上表示,传统模型想搞定几十页长文档,根本没戏!
2022年,一位AI开源项目负责人公开表示,“就算给你全套代码,中国也做不出高效的长文档OCR。”
百度开源负责人和那位项目负责人的意思其实都差不多。
负责人虽然讲得有些直接,但他言外之意就是,你们不仅缺乏高效的解码机制,还缺稳定的显存控制,想要突破技术短时间内搞定连续解析是不现实的。
而那位项目负责人更觉得长文档OCR是全球AI的难题之一,汇聚了全球顶尖的硬件和算法手段,中国想要靠自己完成持续处理,还是比较困难的。
他们做出自己判断的核心是中国长文档解析基础薄弱,包括研究积累,注意力机制创新,计算成本控制等诸多方面距离顶级水平都有着较大差距,所以做出了自己的断定。
对于那位开源负责人而言,现有开源工具最顶尖的就是DeepSeek OCR,比着自己至少落后几代距离,而且自己的方案由于固定窗口尺寸限制,买不到新一代的全图注意力架构,因此自己丝毫不用担心被超越的问题,才有处理不了几十页文档的判断。
已有的技术方案更是垄断了开源长文档OCR的解题思路,固定窗口大小或全图注意力机制,几乎成了唯一的标准,想要改只能找它们自己,Unlimited OCR的水平比自己更是有新意,至少领先一代的技术思路,就算给了论文也不一定能搞定。
站在他们的角度去看,确实也没有错,但他们都忽略了中国在造自己的顶级OCR模型上的态度和决心。
没有人才,可以培养人才,种一棵树最好的时间是十年前,其次是现在;没有研究基础,全国各大院校、研究机构都可以从零开始;没有应用场景,全国这么多文档数据就是最好的训练场,企业愿意加大投入。
所以,我们可以看到,2026年6月,百度正式发布Unlimited OCR模型,通过提出参考滑动窗口注意力机制,专门解决长文档连续解析的问题;
2023年以来,多家顶尖深度学习机构纷纷设立OCR专项攻关小组,专门解决各种场景下的文档理解难题。
无独有偶,2025年,各AI大会不断有主题报告,围绕长文档、长视频等长序列感知产业培育一批重大应用场景,集中力量开展长文档解析的攻关。
2020年之前,各企业为了保持数据优势,纷纷投入资源研发OCR技术。
百度、智谱、DeepSeek等公司都在抢这个方向,不追求短期盈利,扶持模型长期、突破性的发展。
百度陆续投入了顶尖的视觉和语言团队,全力攻关R-SWA机制和软遗忘技术,不追求短期量化效果,如今不少难题都成功攻克。

中国AI领域发展速度带来的压迫感,让一些行业巨头一再变换口吻,2022年还说长文档做不好呢,之后几年却是口风突变。
2022年:“物理规则是一样的,长上下文计算成本只会线性增长。”
2023年:“AI模型想要完全读懂几十页文档还是很困难的,需要和全球社区的顶尖方案长期合作。”
2023年深秋:“中国自己研发长文档OCR机制,是在破坏开源社区的基础设施贡献模式。”
2026年Unlimited OCR发布:“中国自己研发长文档OCR,是在重构AI数据入口的能力。”
百度Unlimited OCR模型,谁看过完整文档?至今没有答案;清华拿出新注意力思路,开源全世界都用。
大力出奇迹,是我们最擅长的,但对于中国AI界来说,这才刚刚开始,面对算法的围追堵截,一定要放弃幻想,撸起袖子加油干!
夜雨聆风