刚刚,百度开源拿下全球第一新智元
百度开源Unlimited OCR!3B参数500M激活,一口气读完40页不失忆。作者疑似DeepSeek出走的OCR核心大神。
就在刚刚,百度闷声干了票大的!
最新开源的Unlimited OCR,总参数3B,实际激活仅500M——放在大模型时代几乎是个零头。
但就是这个小到离谱的模型,在OmniDocBench v1.5上拿下93.23%的综合分,v1.6更是达到93.92%,直接刷新了端到端SOTA。
什么概念?v1.5同台竞技的选手里,235B的Qwen3-VL拿了89.15,72B的Qwen2.5-VL拿了87.02,不公布参数量的Gemini-2.5 Pro也只有88.03。激活参数不到它们零头的选手,反手把它们全甩了。
更离谱的是,它还干了件之前没有OCR模型干成过的事:一口气解析40多页文档,不失忆、不降速,一次推理从第一页读到最后一页。
目前,模型和代码都已同步上线GitHub和HuggingFace。
GitHub:https://github.com/baidu/Unlimited-OCR
Hugging Face:https://huggingface.co/baidu/Unlimited-OCR
为什么所有模型都在「逐页失忆」
说到OCR,现在模型笨得让人意外。
它们会把一件原本连贯的长程任务,硬生生切成几十个互不相干的小任务,再靠一个外部调度器把结果勉强缝起来。就像在跑一个for循环,处理完一页就把记忆清空,再从头开始下一页。
能用,但本质上只是工程的权宜之计,离真正的智能还差着一大截。
究其原因在于,随着输出越来越长,标准注意力机制下的KV缓存像滚雪球一样疯涨——内存吃不消,速度越来越慢。
这才是逼着所有模型逐页处理、频频「失忆」的真正元凶。
但人类抄书,从来不是这么干的。
我们会维持一种连续的认知状态——眼睛盯着三个点:原书、刚写下的一小段、即将要写的下一个字。
早些写过的内容慢慢淡出脑海,最近的上下文用来盯住当前进度。
这种能力有个很妙的名字:「软遗忘」(soft forgetting)。
正是靠着这种「该忘就忘」的本事,人才能在极低认知负荷下扛住超长任务。比如,抄一本书、译几百页、连续转录数小时音频。
百度想做的,就是把人类这种「原文全局可见、记忆只保留最近几行」的注意力方式,搬进模型里。让OCR告别失忆。
R-SWA:把「抄书的秘密」写进注意力
顺着这个思路,百度提出了报告里的核心技术——参考滑动窗口注意力(Reference Sliding Window Attention,R-SWA),精确对应前面说的人抄书时的注意力模式。
具体来说,每生成一个token,R-SWA都会去看全部「参考token」,也就是整张图像的视觉token和提示词,保证模型始终「看得见」完整原文。
但在输出这一侧,它只回看前面128个token,就像你抄书时只瞄一眼刚写的那几行。
落到实现上,Unlimited OCR把所有注意力层全换成R-SWA,从而把KV缓存变成一个固定容量的队列。
每生成一个新token,最老的那个就被挤出去,大小始终不变。输出1万个token和10万个token,内存占用是完全一样的。
报告中Flash Attention v3的延迟测试也一目了然。
DeepSeek OCR的标准MHA随着解码步数增加,每步耗时稳步攀升;而Unlimited OCR的R-SWA从头到尾一条平线,纹丝不动。
一次推理,读完几十页
这里还有一个至关重要的配合:DeepEncoder。
这个最初在DeepSeek OCR中登场的编码器,能把一张1024×1024的PDF页面压缩到仅仅256个视觉token,压缩率高达16倍。
而且由于视觉token在R-SWA下不参与状态转移,因此无论文档多长,图像信息永远清清楚楚,不会随解码过程逐渐退化。
配合DeepEncoder的极致压缩和R-SWA的恒定缓存,Unlimited OCR在标准的32K上下文里,一次前向推理就能转录数十页文档。
结果显示,同时输入20页文档,转录与原文逐字比对的编辑距离仅0.057;即便输入40页以上,依然控制在0.11以下,衡量重复输出的Distinct-35高达97%——几十页一口气转录,几乎没有复读。
在OmniDocBench v1.5上,Unlimited OCR拿到93.23%的综合得分,比DeepSeek OCR的87.01%高出6.22个百分点。
文本编辑距离从0.073降到0.038,公式CDM从83.37飙到92.61,表格TEDS从84.97升至90.93。
在更新的v1.6上,同样以93.92%拿下端到端SOTA。
效率方面同样碾压。
输出达到6144个token时,Unlimited OCR的TPS是7847,DeepSeek OCR已经掉到5822,差距高达35%。
别忘了,这是一个500M激活的MoE小模型,在DeepSeek OCR基础上仅继续训练4000步的结果。
投入不算大,但效果拔群——R-SWA对解析任务是一种真正的「免费午餐」。
九大文档类型的细分对比中,PPT、论文、杂志、报纸无一短板,Unlimited OCR在文本和阅读顺序两项上全面超越DeepSeek OCR,且在七个类别中领先DeepSeek OCR 2。
一位神秘的技术总监
跑分说完了。但这份报告真正有意思的地方,是行文方式。
从副标题的语气到技术的叙事,读过DeepSeek那几份技术报告的人,几页下来就会觉得似曾相识。
末尾还断言R-SWA是通用解析机制,而OCR只是第一站。
一篇OCR报告,硬是写出了探索通用智能的味道。
然后,是那个最让人在意的地方——作者名单。
核心贡献者三位:Youyang Yin,Huanhuan Liu*(项目leader),YY†(技术总监)。
两个人用真名,唯独技术总监挂了个两字母缩写。有点意思。


