在线教程丨32K上下文一次解析数十页文档,百度开源Unlimited OCR,重构长复杂场景

作者:李宝珠
编辑:yudi
转载请联系本公众号获得授权,并标明来源
HyperAI(hyper.ai)的教程版块已上线「Unlimited-OCR:一键部署长文档 OCR 与版面解析」,降低部署门槛,助力快速验证模型
过去几年,OCR 已逐渐从「识别图片里的文字」演变为完整的文档理解(Document Understanding)任务。企业和开发者不仅需要提取文本,还希望模型能够识别复杂版面结构、解析表格与公式、理解多栏排版,并最终输出适合下游 RAG、知识库或办公自动化使用的结构化结果。然而,当处理扫描报告、论文、PPT、合同以及多页 PDF 等长文档时,传统 OCR 流程往往需要逐页推理、再进行后处理拼接,不仅效率较低,也容易造成上下文信息割裂。
以 DeepSeek OCR 为代表的新一代端到端 OCR 模型,通过引入大语言模型作为解码器,充分利用语言先验,显著提升了识别准确率和复杂版面解析能力。但与此同时,一个新的挑战也随之出现:随着输出内容不断增长,模型的 KV Cache 会持续累积,显存占用越来越高,生成速度也会越来越慢。换句话说,模型越接近文档结尾,推理成本越高。
百度团队近期开源的 Unlimited OCR 正是针对这一行业痛点提出了解决方案。该模型以 DeepSeek OCR 为基础,引入全新的 Reference Sliding Window Attention(R-SWA) 机制,替换了解码器中的传统 Attention,在降低 Attention 计算成本的同时,将整个解码过程中的 KV Cache 控制为恒定大小。结合 DeepSeek OCR 编码器本身较高的信息压缩能力,Unlimited OCR 能够在默认 32K 上下文长度下,一次前向推理完成数十页文档的 OCR 与版面解析,为长文档处理提供了一种更具工程价值的新思路。更值得关注的是,R-SWA 并不仅适用于 OCR,还具备扩展至自动语音识别(ASR)、机器翻译等长序列解析任务的潜力。
目前,HyperAI(hyper.ai)的教程版块已上线「Unlimited-OCR:一键部署长文档 OCR 与版面解析」,降低部署门槛,助力快速验证模型 ⬇️
在线运行:https://go.hyper.ai/YfaB5
查看相关论文:https://go.hyper.ai/PZsJo

Demo 示例
更多在线教程:
https://hyper.ai/notebooks
Demo 运行
1.进入 hyper.ai 首页后,选择「教程」页面,或点击「查看更多教程」,选择「Unlimited-OCR:一键部署长文档 OCR 与版面解析」,点击「运行此教程」。


2.页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。
注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3.选择「NVIDIA RTX 5090」以及「PyTorch」镜像,点击「Continue job execution(继续执行)」。


4.等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace。

效果展示
1.页面跳转后,点击左侧 README 文件,进入后点击上方 Run(运行)。


2.待运行完毕后,点击右侧 API 地址即可打开 Demo 界面。


Demo 示例
抽奖赠书

HyperAI超神经联合该书作者韩泽耀为大家带来了赠书福利!我们准备了 15 本超干货技术实战图书「AIGC 与智能体开发实战」,快来参与抽奖吧~
● 参与方式
关注 HyperAI 超神经公众号,并在后台回复「AIGC赠书」,点击抽奖页面参与抽奖,我们共为大家准备了 15 本图书(本次赠书共有 2 个封面版本,书籍内容均一致,随机发货),快递包邮送到您手中,快来参与吧!
● 图书简介AI 时代,如何从零开始掌握大模型应用开发?「AIGC与智能体开发实战」一书专为所有希望进入 AI 领域的开发者量身打造,带你从入门到驾驭 AIGC 智能体开发!
本书以开源大模型为底座,系统讲解了从环境搭建、API 调用到多模态能力编排的关键路径。书中涵盖了文本、图像、语音、视频等智能应用实战,并深入探讨了 Agent 智能体及 RAG 架构。全书结合大量可直接运行的 Python 代码与企业级案例,提供清晰的实战路径,帮助开发者高效上手,实现从「使用者」到「创造者」的转变。
* 点击直接购买↓
往期推荐



戳“阅读原文”,免费获取海量数据集资源!
夜雨聆风

