Topic Timeline

#Claude Fable 5

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

模型发布 2026-07-04 · 周六重要度 4/5

Fable 5 重启后实测生态:APEX-SWE 65.5% → 54.8%(仍超 Opus 4.8 9.5pp)、LMArena 5 赛道一致性、Peter Gostev 60+ 3D 生成测试——增量追踪,不重写全量

继 7-3 早报已深度分析 Fable 5 重启翻车后,过去 24 小时新增实测数据:@mercor_ai 在 SWE 评测基准 APEX-SWE 上放出 Fable 5 重发布版成绩——Fable 5(6 月原版)65.5% Pass@1 → Fable 5(7 月重发布版)54.8% Pass@1(下滑 10.7pp,仍超 Opus 4.8 = 45.3% 超过 9.5pp);@LMArena 三条信号:① Fable 5 重启后在 Text / Vision / Document / Code(Frontend) / Agent 五个赛道收集数千次投票,前后基本一致,Code Arena:Frontend 排名仍第 1 但下滑 27 分;② 邀请用户体验 Battle Mode 与 Agent Mode 投票;③ Peter Gostev 用重部署模型挑战 60+ 个高难度 3D 生成、小游戏与世界构建测试,YouTube 视频已发布。综合判断:Fable 5 重启版「不是简单缩水,可能是 prompt / 对齐调整后的可生产版本」——性能损失但仍领先,符合 cyber safeguards 安全边际上调后的预期。

本期数据是 7-3 早报深度页的增量信号,核心结论不变——Fable 5 重启版在 BridgeBench / APEX-SWE 等硬基准上确实有可复现的回归,但仍领先 Opus 4.8 约 9-10 个百分点。@mercor_ai 的 APEX-SWE 数据与 7-3 @bridgemindai 的 BridgeBench 数据(86.2 → 25.9 Debugging 跌幅)形成跨基准印证:Fable 5 重启版的「性能下降」不是单基准现象,是跨基准一致信号。LMArena 5 赛道投票「前后基本一致」则说明在盲评场景下,Fable 5 的实际用户体验并未出现硬基准那么剧烈的退化——这是好消息,意味着「硬基准雪崩」与「真实用户体验」的差距比想象中大,Anthropic 的「可生产版本」定位有一定依据。Peter Gostev 的 60+ 3D 生成测试(YouTube)则是「极端任务场景」的补充:在小游戏 / 世界构建 / 3D 生成等长链路任务上,Fable 5 是否同样稳健还需要进一步数据。这组数据的真正含义是:Fable 5 重启版在「硬基准 - 盲评用户体验 - 极端任务」三个层级呈现差异化的能力损失——硬基准最严重(护栏过激主导)、盲评中等(用户感知温和)、极端任务待观察——这种「分层退化」对开发者的实际选型有指导意义:简单任务可选 Sonnet 5,中等任务仍可用 Fable 5,极端任务暂等数据。

头条 2026-07-04 · 周六重要度 5/5 深度报告 →

Anthropic 发布 Fable 5 cyber safeguards 完整版:CJS 4 轴评分(0-10 五档)+ 4 象限分类器 + HackerOne 漏洞征集——AI 安全治理从口号升级为可打分行业标准

Anthropic 7-2 在 Fable 5 重启公告(7-1)的次日发布 cyber safeguards 完整技术细节《More details on Fable 5's cyber safeguards and our jailbreak framework》。核心分两部分:(1) Fable 5 安全分类器四象限——禁止使用(Prohibited,显著危害或几乎无防御价值一律阻断,覆盖勒索/网空物理破坏/防御规避/C2/恶意软件开发与投递/骨干网攻击)/ 高风险双重用途(渗透测试/红队/未授权访问/提权/漏洞武器化/VM 容器逃逸/工控 OT 协议滥用/电信核心/金融基础设施/高 uplift 漏洞发现)/ 低风险双重用途(OSINT/其他模型也能做的漏洞识别/SSL TLS 协议研究,多数允许但按「安全边际」阻断一部分)/ 良性使用(安全编码/调试/防病毒配置/SIEM SOC/威胁狩猎/恶意软件逆向/培训/历史漏洞问答);安全边际(safety margin)在 Fable 5 上调得比前代更大。(2) 越狱严重性框架 CJS(Jailbreak Severity Framework,草案,与 Glasswing 合作伙伴共拟):四轴评分——能力增益 uplift 0-4 / 增益广度 universality 0-2(0.5 步进)/ 武器化难度 0-2(0.5 步进)/ 可发现性 0-2;总分 0-10,对数级分五档 CJS-0 信息级(0 分)/ CJS-1 低(1-3.5)/ CJS-2 中(4-6.5)/ CJS-3 高(7-8.5)/ CJS-4 严重(9-10);评分是「下限」可酌情上调、不可下调;仅系统提示词泄露等非网安类越狱不在本框架。反馈渠道 cyber-safeguards@anthropic.com + HackerOne 漏洞赏金计划,征集 Fable 5 的网络越狱技术供评估。Anthropic 表示希望通过学界/产业/民间/政府多方反馈把框架打磨成行业公认标准。

这份完整框架的真正重量不在「四象限」「四轴」的形式化,而在它把 AI 安全治理从「事件驱动」推向「制度化对齐」。昨天(7-2)Anthropic 发布的《Redeploying Fable 5》只是把 CJS 框架草稿一笔带过,今天这份完整技术规范等于把评分细则、典型案例、上下调规则、HackerOne 漏洞征集流程全部公开——任何实验室、政府监管机构、安全厂商都可以基于同一套刻度评估越狱风险,而不再依赖各家自评。这意味着 OpenAI、Google DeepMind、xAI、Mistral 等头部厂商面临「是否加入 Glasswing 联盟并采纳 CJS 评分」的明确选择题;拒绝采纳等于在「治理透明度」上落后,采纳则意味着自家的红队测试结果将按可对照口径对外披露——监管侧获得前所未有的实质性参与权。值得关注的反方观点是:评分「下限可酌情上调、不可下调」的单向性虽然防住了「厂商自我美化」,但同时意味着 CJS-4 严重级一旦被认定,影响深远,商业利益方会强烈推动把评级归到更低档——框架是否真的能顶住这种压力,是未来 12 个月最值得跟踪的治理博弈。配套 HackerOne 漏洞赏金的开放是另一个关键信号:Anthropic 把「自家模型被越狱」从「公关危机」转为「可定价的资产」(漏洞赏金单笔定价),等于把研究界、灰产界、政府红队全部纳入「越狱技术市场」的供需循环——越狱技术从此不再只是「禁止品」,而是「可交易的研究商品」。

头条 2026-07-03 · 周五重要度 5/5 深度报告 →

Fable 5 重启后 24 小时三连击:BridgeMind 基准雪崩、社区怒骂、Anthropic 官宣 7.7 撤出订阅

Fable 5 重启不到 24 小时,Anthropic 的旗舰模型在三个独立维度同时遭遇重击:(1) @bridgemindai 在 BridgeBench 重测,Debugging 从 86.2 跌到 25.9、Refactoring 73.6→38.4、Hallucination 75.9→61.7,主因被指为新硬性护栏过度触发并回退 Opus 4.8;(2) @Hesamation「Fable 5 不是被 nerf,而是被屠杀」获 4.4k 赞,@Khazix0918 实测 Fable 5 自主去火山引擎提交工单的 488 赞贴与社区愤怒形成对照;(3) Anthropic 团队成员 @trq212 7.2 官宣 7.7 将 Fable 5 从订阅下架、后续视产能恢复回归,LMArena 数据同时显示 Code Arena:Frontend 排名仍第 1 但已下滑 27 分,与 Anthropic 6.30 公告中「被标记率上升」自承一致。

昨天 (2026-07-02) 早报深度页已分析过 7.1 重启与 jailbreak 框架争议,今天增量集中在「重启后实测」与「订阅形态生死」两个维度:BridgeMind 的硬数字证明昨天担心的护栏过激不是体感问题、是可复现的回归;@trq212 的 7.7 下架公告等于 Anthropic 第一次承认 Fable 5 暂时不具备「订阅默认模型」的稳定性。三方信号(基准雪崩 + 社区怒骂 + 厂商自己承认)同步到位,Fable 5 短期内不再是「订阅旗舰」,更接近「定向高风险任务专用工具」。这一节点也意味着 Anthropic 把 7.7 后的 Sonnet 5 + Opus 4.8 双线推上默认位置,Anthropic 商业化叙事面临短期阵痛。