Topic Timeline
#多智能体
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-06-28 · 周日 重要度 3/5
论文:67 个前沿模型实测,Routing/Voting/MoA 的『协同失效上限』
一篇 arXiv 论文(When Does Combining Language Models Help?)在 67 个前沿模型上系统分析了 Routing、Voting、Mixture-of-Agents 三类『组合多模型』策略,提出『协同失效上限(Co-Failure Ceiling)』:当被组合的模型倾向于在同一批样本上同时犯错时,无论怎么路由、投票或混合,集成收益都存在一个由共同失败决定的天花板。
这篇给当下火热的 multi-agent / MoA 叙事泼了一盆必要的冷水。业界默认『多个模型一起上总比单个强』,但这篇用 67 个模型的大规模实证指出:集成的收益不取决于你用了多巧妙的路由或投票,而取决于成员模型的错误是否相关——如果大家在同样的难题上一起翻车,再复杂的组合也救不回来。这与早报此前覆盖过的 EDV『自我确认陷阱』遥相呼应:多智能体系统的护城河不在『数量』或『拓扑』,而在成员之间的『错误多样性』。对正在堆 MoA 架构的团队,这是一个该停下来量一量『成员失败相关性』的提醒——盲目加模型可能只是在为相关的错误付更多算力。
研究论文 2026-06-24 · 周三 重要度 4/5 深度报告 →
Execute-Distill-Verify:破解 agent 经验学习的「自我确认陷阱」
一篇新论文指出 agent 经验学习的核心失效模式——同一个 agent 既执行又评估,会把「错误但自洽」的轨迹当成有效经验写入记忆并越用越偏。EDV 用异构 agent 并行探索、第三方蒸馏、执行组共识校验三阶段解耦,τ²-bench 均分 Pass@1 86.6(对比 Router 83.5),且较 ReasoningBank 省 24.5% token。