百度开源Unlimited OCR夺全球第一,疑似DeepSeek大神加盟
type
status
date
slug
summary
tags
category
icon
password
网址
就在近日,人工智能领域迎来了一次震撼的“以小博大”。百度低调发布并开源了全新的文档识别模型——Unlimited OCR。这个总参数仅为3B、实际激活参数仅有500M的“小模型”,在权威评测集OmniDocBench v1.5和v1.6上,以超过93%的综合得分力压参数量高达数百亿的行业巨头,一举拿下全球第一。这一突破迅速在各大AI门户和技术社区引发了广泛讨论。更引人瞩目的是,该项目的技术总监署名为“YY”,业内推测其真实身份极有可能是从DeepSeek出走的OCR核心大神。
传统OCR的痛点:为什么大模型总是“逐页失忆”?
在当前的大模型(LLM)时代,多模态文档解析(OCR)虽然取得了长足进步,但在处理长文档时依然面临严重的瓶颈。传统的OCR模型在处理几十页甚至上百页的PDF时,通常会采用“分而治之”的工程策略——将长文档切分成单页,逐页识别后再通过外部调度器进行拼接。
这种方法本质上是“逐页失忆”的。模型在处理当前页面时,无法保留前一页的上下文记忆。这背后的技术元凶在于标准注意力机制下的KV缓存(Key-Value Cache)。随着输出长度的增加,KV缓存呈雪球式暴涨,导致内存占用激增、推理速度断崖式下跌。这不仅限制了模型的长文本处理能力,也背离了人类阅读和理解文档的自然方式。
核心突破:R-SWA如何实现“像人类一样抄书”?
为了解决这一行业痛点,百度团队在Unlimited OCR中引入了核心创新技术——参考滑动窗口注意力机制(Reference Sliding Window Attention,简称 R-SWA)。这一灵感直接来源于人类的“抄书”行为。
人类在转录或翻译长文档时,视觉上能够全局看到整张原始页面(原文全局可见),但大脑的即时记忆只会保留刚刚写下的几行字以及即将要写的下一个字,这种机制被称为“软遗忘”。
R-SWA正是将这种机制搬进了大模型。在每生成一个Token时,模型都会关注全部的“参考Token”(即整张图像的视觉Token和提示词),确保始终能“看清”完整原文;而在输出端,模型只回看最近的128个Token。通过将注意力层全部替换为R-SWA,Unlimited OCR成功将KV缓存变成了一个固定容量的队列。无论输出是1万字还是10万字,内存占用始终恒定,彻底解决了长文本推理的延迟和内存焦虑。
极致压缩:DeepEncoder与MoE的高效协同
除了R-SWA,Unlimited OCR的卓越表现还离不开DeepEncoder的配合。作为最初在DeepSeek OCR中登场的明星编码器,DeepEncoder能够将一张1024×1024分辨率的PDF页面极致压缩至仅256个视觉Token,压缩率高达16倍。
在R-SWA框架下,这些视觉Token不参与状态转移,因此无论文档多长,图像信息都能保持清晰,不会随着解码的进行而退化。
得益于这种高效的设计,Unlimited OCR在标准的32K上下文窗口内,仅凭一次前向推理就能流畅转录数十页文档。测试数据显示,在同时输入20页文档时,其转录编辑距离仅为0.057;即便文档超过40页,依然没有出现大模型常见的“复读机”现象。在OmniDocBench v1.5测试中,Unlimited OCR以93.23%的成绩大幅超越DeepSeek OCR的87.01%,展现出了极高的人工智能技术水准。
幕后操盘手:疑似DeepSeek出走大神的加盟
除了技术本身,Unlimited OCR论文背后的作者名单也引发了AI新闻界的广泛猜测。在贡献者名单中,技术总监一职仅署名为缩写“YY”。
业内人士通过GitHub致谢名单(前两位赫然是Deepseek-OCR和Deepseek-OCR-2)顺藤摸瓜,发现DeepSeek OCR团队的核心成员魏浩然已于今年4月离职。魏浩然曾主导开发了端到端OCR的开源标杆GOT-OCR 2.0,随后在DeepSeek一手搭建了OCR技术路线。
无论从技术架构的熟悉度、学术品味,还是名字缩写,种种线索都指向了这位顶级专家的加盟。百度的“AIDU人才计划”近期升级,对顶尖AI人才开出了不设上限的薪酬,配合百度深厚的产业落地底座,成功吸引此类技术大牛加盟也在情理之中。
展望未来:从OCR走向通用长程解析框架
Unlimited OCR的成功,证明了R-SWA不仅适用于OCR,更是一种通用的长程解析机制。根据百度的技术展望,未来研究团队计划将上下文窗口进一步训练扩展至128K,并构建“Prefill Pool”以实现模型的自动翻页功能。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)