Topic Timeline

#研究论文

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

研究论文 2026-06-28 · 周日 重要度 3/5

论文:LLM 自动简历筛选可被提示注入攻破,单注入与多注入实测

一篇 arXiv 论文(Prompt Injection in Automated Résumé Screening with Large Language Models)研究用 LLM 做自动简历筛选时的提示注入攻击,在『单注入』与『多注入』两种设置下实测——求职者可在简历中嵌入隐藏指令操纵 LLM 的筛选/打分结果,从而不公平地抬高自己的通过率。

这是 prompt injection 从『安全研究者的演示』落到『高利害真实场景』的一个典型案例。简历筛选直接关系到就业公平和企业合规,而越来越多公司在用 LLM 做初筛——这意味着攻击面已经实实在在地存在于招聘流水线里。论文区分单注入与多注入,说明攻击不是非黑即白,而是有强度梯度的。它的现实意义大于学术意义:任何把 LLM 接入『读取外部不可信文本并据此做决策』的流程(简历、合同、用户提交内容),都继承了同一类风险。对企业的提示很直接——在 agent 读取外部文档做决策的链路上,输入侧的指令隔离和注入检测不是可选项。这也和早报关注的 agent 安全主线一脉相承:能力越强、越自主,被注入操纵的后果越严重。

研究论文 2026-06-28 · 周日 重要度 2/5

论文:世界模型的幻觉是可预测、可预防的

一篇 arXiv 论文(Hallucination in World Models is Predictable and Preventable)研究世界模型(用于 agent 规划/仿真的环境预测模型)中的幻觉问题,主张这类幻觉并非随机不可控,而是可预测、可预防的,并给出相应的识别与抑制方法。

这条接在 Qwen-AgentWorld 等『把世界模型当 agent 训练第一性目标』的热潮之后,问到了点子上:如果要用世界模型做可控模拟器来替代真实环境训练 agent,那模拟器自己会不会『幻觉』出不存在的状态转移,就是整条路线成立与否的命门。如果幻觉真的可预测、可预防,意味着世界模型作为 RL 训练环境的可靠性有了工程抓手——这对正在押注『模拟环境降低 agent 训练成本』的团队是结构性利好。但『可预测可预防』是论文主张,具体方法的泛化性和在大规模复杂环境下的有效性,仍需第三方在真实 agentic 任务上验证。它和 MoA 协同失效那篇一样,代表当下研究正从『造更强的 agent 组件』转向『搞清楚这些组件何时、为何失效』——这种把失效模式量化、可控化的工作,往往比再刷一个 SOTA 更有长期价值。

研究论文 2026-06-28 · 周日 重要度 3/5

论文:67 个前沿模型实测,Routing/Voting/MoA 的『协同失效上限』

一篇 arXiv 论文(When Does Combining Language Models Help?)在 67 个前沿模型上系统分析了 Routing、Voting、Mixture-of-Agents 三类『组合多模型』策略,提出『协同失效上限(Co-Failure Ceiling)』:当被组合的模型倾向于在同一批样本上同时犯错时,无论怎么路由、投票或混合,集成收益都存在一个由共同失败决定的天花板。

这篇给当下火热的 multi-agent / MoA 叙事泼了一盆必要的冷水。业界默认『多个模型一起上总比单个强』,但这篇用 67 个模型的大规模实证指出:集成的收益不取决于你用了多巧妙的路由或投票,而取决于成员模型的错误是否相关——如果大家在同样的难题上一起翻车,再复杂的组合也救不回来。这与早报此前覆盖过的 EDV『自我确认陷阱』遥相呼应:多智能体系统的护城河不在『数量』或『拓扑』,而在成员之间的『错误多样性』。对正在堆 MoA 架构的团队,这是一个该停下来量一量『成员失败相关性』的提醒——盲目加模型可能只是在为相关的错误付更多算力。

研究论文 2026-06-24 · 周三 重要度 4/5 深度报告 →

PlanBench-XL:1665 个工具的长程规划评测,前沿模型在「静默失败」前集体失灵

UIUC 团队提出交互式长程规划基准 PlanBench-XL:327 个零售任务、1665 个工具、56 种数据类型,工具需检索动态发现,平均约 25 轮、最短解 5–9 次调用。Gemini-3.1-Pro 最强(77.06%),GPT-5.4 默认 51.90% 但在最严重阻塞下崩到 11.36%,最小模型为 0%;探索度与准确率强相关(r=0.902),「静默失败」危害最大。