Topic Timeline
#abstention
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-07-01 · 周三 重要度 3/5
arXiv 高引论文:Agentic Abstention——智能体在『何时不行动』上比通用模型差 30 个百分点
arXiv 2606.28733《Agentic Abstention: Do Agents Know When to Stop Instead of Act?》获 Hugging Face 120 分(本日 arXiv 候选最高),核心发现:智能体在『何时该停止 / 不该行动』上的判断能力比通用模型低约 30 个百分点。这是 agent harness 范式被广泛采用后的第一个『反例』研究——『行动能力』与『克制能力』不是同向增长,智能体越能执行就越容易过度执行。
这篇论文是 6 月 Claude Code / Devin Fusion / Claude Science 等 harness 化产品大爆发之后的第一个反向警示——『克制能力』(abstention)是 agent 安全的核心,但所有 harness 产品的优化目标都偏向『行动』。HF 120 分高引说明 agent 安全研究社区已意识到这个缺口。下半年最可能出现的 agent 失败模式不是『答错题』而是『做了不该做的事』,这会推动『guardrail agent』『reviewer agent』(如 Claude Science 已采用)成为标配。