Topic Timeline

#长文档

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

产品上新 2026-06-30 · 周二重要度 4/5 深度报告 →

百度 Unlimited-OCR 登 HuggingFace/GitHub 四榜,3B 总参 / 570M 激活 MoE 专攻长文档连续识别,Star 快速破万

百度于 2026-06-28 发布 Unlimited-OCR 并登顶 HuggingFace 与 GitHub 四榜,上线后 GitHub Star 快速突破 1 万,进入 2026 年增长最快开源项目之列。模型采用总参 3B、激活参 570M 的 MoE 架构,专攻长文档连续识别;基座是 DeepSeek-OCR 的 DeepEncoder 思路,被业内解读为『像人一样抄书』。

Unlimited-OCR 把『长文档连续识别』这个工程瓶颈再往前推一步,不是版面分析而是端到端逐字逐句识别。论文作者署名中一位『YY』被怀疑是 DeepSeek-OCR 核心作者魏浩然,若属实,这意味着 OCR 领域出现了中国大厂之间的人才流动——从 DeepSeek 跳到百度,把 DeepEncoder 思路带过去。这是国产 OCR 在 2026 H2 的标志性开源项目,值得金融、法律、医疗等长文档场景重点跟踪。