Topic Timeline

#百度

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

研究论文 2026-06-23 · 周二 重要度 3/5 深度报告 →

Unlimited OCR:固定 KV cache 的滑窗注意力,一次性解析数十页文档

百度的工作针对 DeepSeek OCR 类端到端模型『输出越长 KV cache 越大』的痛点,提出 Reference Sliding Window Attention(R-SWA):每个 token 关注全部参考 token(视觉+提示)但只关注前 n 个输出 token(默认 128),把 KV cache 固定为 m+n。保留 DeepEncoder 高压缩(1024×1024 页约 256 token)。OmniDocBench v1.5 总分 93.23,超 DeepSeek OCR 基线 6.22 分;v1.6 达 93.92(端到端 SOTA);40+ 页长程解析编辑距离仍低于 0.11。3B 总参 / 0.5B 激活的 MoE。

这是『长程恒定开销』思路在 OCR 上的一次干净落地:模仿人类『解析工作记忆』,让长篇复制任务的效率不随页数增长而劣化。亮点是 32K 上下文内单遍解析数十页且精度不塌(40+ 页编辑距离 <0.11)。但要注意它是用线性复杂度注意力换长程稳定性,本质是工程权衡;作者也把它定位为『初步验证』,并预告扩展到 ASR 和翻译——能否在这些新模态保持优势仍待观察。