#数据工程
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
DataClaw0:把「数据处理」变成可学习的 agent 能力,从原始流裁剪多模态数据
清华等提出『Agentic Data Tailoring』:不再被动标注,而是主动把高熵的非结构化多模态流裁剪成与用户/下游意图对齐的结构化输出。用『确定性事实锚点 + 生成式语义合成』两阶段流水线造数据,基于 9B 模型 SFT + GRPO 联合训练,并用下游后训练(视频生成、真实 VQA、GUI 导航)作为最终验证标尺,而非只看中间指标。
这反映了一个正在成形的判断:数据工程本身正在被『agent 化』。把数据裁剪从一次性预处理变成可学习、可奖励优化的能力,意味着『为下游任务定制数据』可以闭环训练。最聪明的是它的评测哲学——不自证『裁得好』,而是拿裁出来的数据去真正训下游模型(视频/VQA/GUI),用下游涨不涨分反向验证数据质量,这比任何中间指标都硬。它和同日的 OpenThoughts-Agent 是一组呼应:后者开源『agent 训练数据怎么配』,前者主张『数据加工本身就该是个会进化的 agent』——数据正在从静态资产变成动态能力。caveat 是 GRPO 在多模态数据合成上的稳定性、以及『锚点』机制能否防住生成式合成的幻觉,仍待更大规模检验。
DataClaw0:把『数据处理』变成可学习的 agent 能力,从原始流裁剪多模态数据
清华等提出『Agentic Data Tailoring』:不再被动标注,而是主动把高熵的非结构化多模态流裁剪成与用户意图对齐的结构化输出。基于 Qwen3.5-9B,SFT + GRPO 联合训练,两阶段流水线(自底向上抽取『事实锚点』+ 自顶向下语义合成),分 Omni(统一)与 Expert(领域解耦)两种范式。DataClaw0-val 上 Field 最高 97.53,接近 Gemini-3.1-Pro-Preview 的 98.12。
这反映了一个正在成形的判断:数据工程本身正在被『agent 化』。把数据裁剪从一次性预处理变成可学习、可奖励优化的能力,意味着『为下游任务定制数据』可以闭环训练。用下游后训练(GUI 导航、视频生成、时空 VQA)反向验证数据质量,是个聪明的评测设计。但 9B 模型在 Field 维接近顶级闭源、Semantic/Sequence 维仍有差距,说明结构对齐易、语义/序列建模难。