#多模态
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
DataClaw0:把「数据处理」变成可学习的 agent 能力,从原始流裁剪多模态数据
清华等提出『Agentic Data Tailoring』:不再被动标注,而是主动把高熵的非结构化多模态流裁剪成与用户/下游意图对齐的结构化输出。用『确定性事实锚点 + 生成式语义合成』两阶段流水线造数据,基于 9B 模型 SFT + GRPO 联合训练,并用下游后训练(视频生成、真实 VQA、GUI 导航)作为最终验证标尺,而非只看中间指标。
这反映了一个正在成形的判断:数据工程本身正在被『agent 化』。把数据裁剪从一次性预处理变成可学习、可奖励优化的能力,意味着『为下游任务定制数据』可以闭环训练。最聪明的是它的评测哲学——不自证『裁得好』,而是拿裁出来的数据去真正训下游模型(视频/VQA/GUI),用下游涨不涨分反向验证数据质量,这比任何中间指标都硬。它和同日的 OpenThoughts-Agent 是一组呼应:后者开源『agent 训练数据怎么配』,前者主张『数据加工本身就该是个会进化的 agent』——数据正在从静态资产变成动态能力。caveat 是 GRPO 在多模态数据合成上的稳定性、以及『锚点』机制能否防住生成式合成的幻觉,仍待更大规模检验。
BioMatrix:序列-结构-语言统一的生物基座,80 任务里 77 项 SOTA
上海 AI Lab 等提出 BioMatrix,称是首个在单一 decoder-only 架构内原生融合『序列、结构、语言』、同时覆盖分子与蛋白质的多模态生物基座。通过统一 tokenization 把 SMILES/SELFIES、分子结构、蛋白序列/结构与语言映射到共享离散 token 空间,统一 next-token 预测,无需外部编码器或模态专用输出头。基于 Qwen3(1.7B/4B)持续预训练 3044 亿 token,在 6 类 80 个任务上 77 项达 SOTA 或有竞争力。提交者于 6 月 23 日提交。
AI for Science 的一个值得记的方向:把生物多模态统一进一个『纯语言模型式』的 token 空间,省掉适配器和专用头,理论上能让分子与蛋白之间的跨模态生成更自然。77/80 SOTA 的说法很亮眼,但置信度需谨慎——生物基座的评测口径差异大、复现门槛高,且『SOTA 或有竞争力』的措辞把两类结果混在一起。建议等第三方在标准任务上独立复现后再下定论。
DataClaw0:把『数据处理』变成可学习的 agent 能力,从原始流裁剪多模态数据
清华等提出『Agentic Data Tailoring』:不再被动标注,而是主动把高熵的非结构化多模态流裁剪成与用户意图对齐的结构化输出。基于 Qwen3.5-9B,SFT + GRPO 联合训练,两阶段流水线(自底向上抽取『事实锚点』+ 自顶向下语义合成),分 Omni(统一)与 Expert(领域解耦)两种范式。DataClaw0-val 上 Field 最高 97.53,接近 Gemini-3.1-Pro-Preview 的 98.12。
这反映了一个正在成形的判断:数据工程本身正在被『agent 化』。把数据裁剪从一次性预处理变成可学习、可奖励优化的能力,意味着『为下游任务定制数据』可以闭环训练。用下游后训练(GUI 导航、视频生成、时空 VQA)反向验证数据质量,是个聪明的评测设计。但 9B 模型在 Field 维接近顶级闭源、Semantic/Sequence 维仍有差距,说明结构对齐易、语义/序列建模难。
PerceptionDLM:用扩散语言模型并行做区域感知,吞吐提速最高 3.44×
来自北大、ByteDance、武大、CASIA、NUS 的工作,首次用多模态扩散语言模型(DLM)实现并行区域描述:不同于自回归逐区域处理,它用结构化注意力掩码让多个掩码区域同时被描述。基于 SigLIP-2 + LLaDA-8B,提出 ParaDLC-Bench(2345 题、GPT-5.2 为评判)。多模态 16 项基准中 15 项超 LLaDA-V,ParaDLC-Bench 准确率 62.4%(LLaDA-V 35.2%),完全并行时吞吐最高提速 3.44×,单图延迟从 10.04s 降到 2.92s。提交于 6 月 17 日。
扩散语言模型一直被质疑『只快不准』,这篇用区域感知这个天然可并行的任务给出了反例:既显著超越扩散基线,又把自回归逐区域的延迟砍掉近 7 成。它的价值在于点明了 DLM 的差异化战场——凡是输出之间相互独立、可并行的结构化感知任务,DLM 的并行解码就有结构性优势。下一步看它能否从『感知』扩展到『生成与推理』,那才是对自回归的正面挑战。
PerceptionDLM:扩散语言模型实现并行区域感知,最高 3.44x 提速
PerceptionDLM(arXiv 2606.19534,63 upvotes)首次用多模态扩散语言模型(DLM)实现并行区域描述与感知:借助区域感知掩码嵌入、RoI 特征重放与结构化注意力掩码,同时为多个掩码区域生成描述。基于 SigLIP-2 + LLaDA-8B,在 16 个基准中 15 个超过 LLaDA-V,自建 ParaDLC-Bench 达 62.4% 准确率,吞吐最高提速 3.44x,推理时间 276s(对照 GAR 479s)。
这是扩散语言模型(DLM)在多模态感知上对自回归路线的一次正面挑战:AR 逐区域处理的串行瓶颈,被 DLM 的并行解码天然化解。意义在于为『密集区域级理解』(检测、指代、密集描述)提供了一条不靠堆 token 数、而靠并行解码提效的新路径。作者也坦承复杂推理(MMMU/MathVista)仍落后 AR,并把 RL 列为后续——所以这是『效率先行、推理待补』的阶段性突破,不是全面超越。