乐于分享
好东西不私藏

花大钱堆显卡,长文档还是爆显存?百度开源OCR靠“主动遗忘”拿下第一!

花大钱堆显卡,长文档还是爆显存?百度开源OCR靠“主动遗忘”拿下第一!

全国的中考基本都结束了,但AI的“大考”才刚刚开始。

各地AI的考试好像不一样,从过去起就陆续有不同领域的用户开始吐槽:

其实,关于“AI无法连续读完一本长文档”这件事吧,本来就是个常态。

大模型和OCR一样,也是用来处理数据的,近一半的纸质文档将无法被有效理解,这是铁一般的现实,否则你以为那么多企业花大价钱搞数据清洗都是闲得没事干矫情着玩啊……

谁都会劝当开发者的放宽心,想开点……说白了这就是一种无奈的客套话,如果AI只要窗口开大点、参数堆高点就可以实现love & peace,那都不用创新了。放到每一个Token上,凭什么放宽心,凭什么想开点。算力崩溃的不你的模型,你才会让人家躺平吧。

所以我能理解很多技术从业者对当前长上下文模型咬牙切齿是有原因的。

倒不恨它算力不够,恨的是这盘棋下得不厚道。

不天天喊让人家扩展上下文窗口嘛,左一个128K,右一个1M,好多人都真的加了钱,最后发现OCR长文档是爆显存。

2026年一篇名为《Unlimited OCR发布:新机制R-SWA登场》的报道中给出的总结:传统KV Cache膨胀了,显存吃紧,推理变慢,成本居高不下……

前几年为了搞定长文档理解,有些团队真的下大力气搞了各种动作,比方说:上面堆算力买GPU,微调优化注意力机制,让模型记住所有历史Token,鼓励学生压缩KV Cache之类的无奈之举,蹲点计算存储开销是否还能再降……

你看,下了多么大的功夫堆上下文啊。

可再看看百度刚刚开源的Unlimited OCR,大家的反馈是这样的:

还有不少模型,喜欢在长文档解析上翻车。

对AI来说,OCR是对视觉与文本协同的考核,又不语音识别,也不机器翻译,拓展那么深没有意义。可有些模型,面对长文档时生成的Token质量歪门邪道的,给人感觉像是在闹着玩。

上下齐心花那么大力气堆上下文,你一个OCR就动摇了用户信心。

为了能应对这些高信息量、高拓展度的长文档,单纯依赖扩大窗口的算力够用吗?

要么有人降低文档解析难度,要么有人提出新的注意力机制,但两件事都没人做,好吧,只能听天由命了。

有些企业为了应对可能存在的“长文档模型崩溃难题”,就会偷偷在底层算法上另辟蹊径。张三用了局部遗忘,李四看了也去,王五看了别人都去自己也不甘心不去。毕竟谁都希望自己是长上下文赛道里的前50%,为了这个初心……表面一口一个扩展窗口,背地里反而更累了,因为你不知道别人都研究出什么新机制了,是不自己的模型又被向后淘汰了一个算力位次……

什么时候R-SWA这类机制真的做到让显存恒定、延迟平稳,大家才叫真的吃到长上下文红利。什么时候任何传统的窗口扩展都对长文档不起作用了,什么时候大家都踏实了。

往深里扒,只要大模型需要处理几十页PDF存在一天;再往深里扒,只要社会对非结构化数据转化为AI可理解数据的需求存在一天,这个负就没那么好减、没那么容易说减就减。技术的问题,不能全让模型和工程师的头发买单。

有人说“它难你也难,大家都难不就一样了吗?”

有一种脑干缺失的美。

你怎么知道大家一起难?你再说说看为什么Unlimited OCR能在OmniDocBench v1.5上拿93.23%、比DeepSeek OCR高6.22%,在v1.6上达到93.92%?

我只能说他们不一定是因为堆了更多算力,也不一定是因为模型更大,不信你去看看R-SWA和传统窗口扩展,它们靠什么进入了更好的性能榜单,是靠记忆一切是靠主动遗忘,我说不好,但你可以猜一猜。