Topic Timeline

#abstention

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

研究论文 2026-07-01 · 周三重要度 3/5

arXiv 高引论文:Agentic Abstention——智能体在『何时不行动』上比通用模型差 30 个百分点

arXiv 2606.28733《Agentic Abstention: Do Agents Know When to Stop Instead of Act?》获 Hugging Face 120 分(本日 arXiv 候选最高),核心发现:智能体在『何时该停止 / 不该行动』上的判断能力比通用模型低约 30 个百分点。这是 agent harness 范式被广泛采用后的第一个『反例』研究——『行动能力』与『克制能力』不是同向增长,智能体越能执行就越容易过度执行。

这篇论文是 6 月 Claude Code / Devin Fusion / Claude Science 等 harness 化产品大爆发之后的第一个反向警示——『克制能力』(abstention)是 agent 安全的核心,但所有 harness 产品的优化目标都偏向『行动』。HF 120 分高引说明 agent 安全研究社区已意识到这个缺口。下半年最可能出现的 agent 失败模式不是『答错题』而是『做了不该做的事』,这会推动『guardrail agent』『reviewer agent』(如 Claude Science 已采用)成为标配。