Topic Timeline

#数据合成

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

研究论文 2026-06-23 · 周二重要度 2/5

CLI-Universe:为终端 agent 合成可验证任务,32B 模型 Terminal-Bench 2.0 冲到 33.4%

南大、StepFun、上海 AI Lab 等针对终端 agent 训练数据稀缺,提出『由内向外』的任务合成引擎:任务蓝图构建→Docker 环境实体化→多阶段验证过滤(约三分之二候选被拒,仅 33.6% 存活)。产出 CLI-Universe-6K 训练集。Terminal-Bench 2.0 上 CLI-Universe-32B 达 33.4%,超同尺寸 SkillSynth-32B(29.6)及更大的 Qwen3-Coder(480B,23.9),但仍落后 Claude-Opus-4.5(57.8)。

终端/CLI agent 是 coding agent 的硬骨头,数据合成质量直接决定上限。这篇的价值在于把『可验证』做实——用角色分离的 agent 做规则门控测试、fail-to-pass 检查,官方解能通过 91% 合成测试。但也暴露了开源与闭源的鸿沟:32B 苦练到 33.4%,仍不及 Claude-Opus-4.5 的 57.8,说明高质量合成数据能缩小但远未填平差距。