#长程
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
MemGUI-Agent:把「管理上下文」做成一等动作,治长程手机 GUI agent 的健忘
针对 ReAct 式提示在长程手机 GUI 任务里被动堆历史、导致 prompt 爆炸又稀释关键跨 app 事实的问题,MemGUI-Agent 提出 Context-as-Action(ConAct):让同一个策略既选 UI 动作、也主动发出『折叠动作历史/折叠 UI 状态/保留近期步骤』三类结构化上下文管理动作。配套 2956 条轨迹数据集 MemGUI-3K,训出的 8B 模型拿到 MemGUI-Bench 最佳开源数据成绩,并泛化到分布外的 MobileWorld。
这条思路的聪明之处在于把『记什么、扔什么』从外挂的记忆模块变成策略自己学的动作——上下文管理和 UI 操作同源同策略,模型在『点哪个按钮』和『该记住哪个事实』之间统一决策。它点中了长程 agent 的真实痛点:失败往往不是不会操作,而是走到第 30 步时忘了第 3 步填的关键信息。8B 拿到最佳开源数据成绩 + 泛化到 OOD 基准,说明『主动压缩上下文』比『被动追加历史』更可学、更省 token。但它仍是『最佳开源数据 8B』这个限定赛道,与闭源大模型的绝对差距未在此口径体现。
Unlimited OCR:固定 KV cache 的滑窗注意力,一次性解析数十页文档
百度的工作针对 DeepSeek OCR 类端到端模型『输出越长 KV cache 越大』的痛点,提出 Reference Sliding Window Attention(R-SWA):每个 token 关注全部参考 token(视觉+提示)但只关注前 n 个输出 token(默认 128),把 KV cache 固定为 m+n。保留 DeepEncoder 高压缩(1024×1024 页约 256 token)。OmniDocBench v1.5 总分 93.23,超 DeepSeek OCR 基线 6.22 分;v1.6 达 93.92(端到端 SOTA);40+ 页长程解析编辑距离仍低于 0.11。3B 总参 / 0.5B 激活的 MoE。
这是『长程恒定开销』思路在 OCR 上的一次干净落地:模仿人类『解析工作记忆』,让长篇复制任务的效率不随页数增长而劣化。亮点是 32K 上下文内单遍解析数十页且精度不塌(40+ 页编辑距离 <0.11)。但要注意它是用线性复杂度注意力换长程稳定性,本质是工程权衡;作者也把它定位为『初步验证』,并预告扩展到 ASR 和翻译——能否在这些新模态保持优势仍待观察。