头条

21 天撤回、>99% 拦截、一份四维度框架:Anthropic Fable 5 重启给出了 AI 安全治理的新范式

从「撤回-修复-重建」21 天惊魂里,Anthropic 把 jailbreak 严重性首次做成可打分行业标准,并把政府-厂商-竞品合作固化为四项可验证承诺。

2026年7月2日 · 周四深度报告高置信重要度 5/5

#Anthropic #Claude #Fable 5 #Mythos 5 #Jailbreak #Safety classifier #CAISI #Project Glasswing #Amazon #Microsoft #Google #OpenAI #GPT-5.5 #HackerOne #出口管制 #AI 治理

Research Pack

核心问题

Fable 5 21 天撤回与重启,把 AI 安全治理从「单厂商保障」推进到了「厂商-政府-竞品-漏洞研究员四方共建的标准体系」:Anthropic 在这次事件里到底做出了什么行业先例,它的代价和边界又在哪里?

为什么是现在

2026 年 6 月 2 日白宫行政命令已经为「发布前政府评估、紧急信息共享、行业安全与评估标准」奠基(本次事件中 Anthropic 直接引用了其中第 2(d) 条);6-9 Fable 5 发布后即遭 Amazon 内部研究报告披露可绕过 safeguard;6-12 美方基于此触发出口管制;6-30 解除 + 7-1 全球回归。同期 OpenAI/GPT-5.5 与 Anthropic 在 LMArena 上仍是「同台打榜」状态。任何一次「发布即召回」都会重新校准整个 2026 下半年的产品节奏与政府关系,所以此刻的事件细节具有强可外推性。

关键数字

>99%
新 safety classifier 对 Amazon 报告所示 bypass 的拦截率Anthropic 自报 + 美国商务部 CAISI 测试认可「extraordinarily strong」;极小概率返回信息不够详细到对攻击者有用;代价是常规编码/调试任务误报率上升,短期需转 Opus 4.8 处理

21 天
出口管制持续周期(6-12 下架 → 6-30 解除)美国商务部基于国家安全权限下令,因无法实时核验国籍暂停所有用户;期间 Mythos 5 由 6-26 起向部分美国组织恢复,6-30 Fable 5 与 Mythos 5 出口管制同步取消

30 天
Mythos 5 数据保留期Mythos 级别模型配套的客户数据保留期;Anthropic 用以研究并缓解非通用型 jailbreak

50%
Fable 5 在 7-7 前包含的周配额免费额度Pro/Max/Team 档 7-7 前 Fable 5 可占每周使用上限的最多 50%;7-7 后通过 usage credits 获取;标准 Enterprise 档默认无 Fable 5 配额,启用 usage credits 后才能访问;Premium Enterprise 席位 7-7 前含 Fable 5、无额外费用

本文要点

状态迁移:Fable 5 从 2026-06-12「全部用户下架」迁移至 2026-07-01「全球恢复」,期间 21 天里完成了「政府管制触发 → 厂商复测反驳 → 技术修复 → 政府独立测试认可 → 框架性承诺」全闭环
状态迁移:Jailbreak 风险评估从「能否触发」二元判断,迁移至由 Capability gain / Breadth / Ease of weaponization / Discoverability 四维度构成的「严重性可打分」框架,首次引入行业可对齐的评分维度
状态迁移:Anthropic 与美方合作从「前期已有 ~2 年 pre-deployment 测试合作」进一步深化为四项可验证承诺(发布前政府访问与评估、紧急信息共享 + 6-2 行政命令漏洞交换所、专门联合研究资源、共同行业标准)
状态迁移:Anthropic safety classifier 工程策略从「通用拦截」偏向「高 safety margin + 高 false positive」的短期取舍,自动转 Opus 4.8 处理被拦截请求,后续计划持续优化以降低误报
状态迁移:Mythos 5 访问范围从「6-12 全部下架」迁移至「仅向美方批准的美国组织开放 + Project Glasswing 合作扩展」,并伴随 30 天客户数据保留期
状态迁移:Fable 5 商业化路径从「订阅内免费额度」迁移至「7-7 前 50% 周配额免费额度 + 7-7 后转 usage credits」,Premium Enterprise 席位路径独立保留

21 天惊魂里的 7 个时间锚点:Fable 5 重启把 AI 安全治理的「动作清单」钉到了协议层

2026 年 6 月 12 日下午 5 时 21 分(美东),美国商务部基于国家安全权限,要求 Anthropic 暂停所有用户(含外籍员工)对 Claude Fable 5 与 Claude Mythos 5 的访问。触发因素是 Amazon 一份内部研究报告中展示的攻击手法——可绕过 Fable 5 safeguard、识别软件漏洞并产出可执行的 exploit 代码。Anthropic 收到指令的当晚即在博客发布长篇技术反驳:8 款主流模型(Claude Haiku 4.5 / Sonnet 4.6 / Opus 4.6 / Opus 4.7 / Opus 4.8、OpenAI GPT-5.4 / GPT-5.5、Kimi K2.7)均能产出同样的利用代码演示——该技巧并未暴露 Mythos 级独有的网络攻击能力。

2026 年 6 月 30 日,美方解除管制。2026 年 7 月 1 日,Fable 5 在全球恢复可用(Claude Platform / claude.ai / Claude Code / Claude Cowork),同步上线新 safety classifier(对 Amazon 报告所示 bypass 拦截率 >99%,美国商务部 CAISI 测试认可「extraordinarily strong」),联合 Amazon、Microsoft、Google 等 Project Glasswing 伙伴正式对外发布行业首个 jailbreak 严重性 4 维框架(Capability gain / Breadth of capability gain / Ease of weaponization / Discoverability),配套 HackerOne 顶级悬赏、24/7 关键 jailbreak 提交渠道监控、以及与美方深化合作四项承诺。

这条时间链的真正意义不是「恢复访问」,而是 AI 安全治理从「单一厂商各自保证」首次迁移到「厂商-政府-竞品-漏洞研究员四方共建的可对齐标准」。下面按这条时间弧线展开,每个关键节点单独成段。

「6-9 → 6-12 17:21 ET」:发布三天后就被出口管制

6 月 9 日,Anthropic 发布 Claude Fable 5 与 Claude Mythos 5——两个模型共享同一底层模型,但 safeguards 不同:Fable 5 面向 Pro/Max/Team/Enterprise 全量订阅用户,Mythos 5 仅向 Project Glasswing 合作伙伴开放(在事件发生前就已经是窄分发)。这个「同一底层 + 不同 safeguards」的双层产品范式,在事件之后变成了 AI 出口管制结构性难题的注脚。

三天后,6 月 12 日下午 5 时 21 分(美东),美国商务部基于国家安全权限,要求 Anthropic 暂停所有用户对 Fable 5 与 Mythos 5 的访问。触发因素是 Amazon 一份内部研究报告:研究者展示了一种可绕过 Fable 5 safeguard 的提示技巧,模型在该技巧下可识别软件漏洞并产出可执行的 exploit 代码——这一能力位于「可被武器化的网络攻击辅助」区间,因此触发了国家安全审查。

关键不在 Amazon 的研究本身(任何前沿模型实验室都在做类似的内部红队),关键在管制方选择「立即暂停所有用户」这条处置路径。Anthropic 在 6-12 声明中明确指出,管制方「无法实时核验国籍」是触发全部用户暂停的直接技术原因——管制按模型版本号生效,而不是按「用户是否在美国 / 是否为美方批准组织」的能力配置生效。这意味着:

Mythos 5 在发布时已经只向 Glasswing 伙伴开放(范围极窄),但仍被一并下架;
Fable 5 的所有合法商业用户(含欧洲、日本、东南亚) 也全部被一并暂停;
管制者原本意图(限制危险能力扩散)与实际波及范围(全模型下架)出现错位。

这件事是 2026 年 AI 出口管制讨论中第一个真实落地案例——管制方不是「公告下一步会管制」,而是「已经在用」。对中、欧、日韩监管者来说,它也是一份真实的预演样本:当管制按模型版本号生效,商用大模型「同一底层 + 不同 safeguards」是常态,出口管制一旦触发,波及范围远超管制者意图——这意味着 AI 出口管制的标的物可能从「模型整体」转向「按能力配置生效」。

「6-12 当夜」:Anthropic 的「8 款模型复测」技术反驳——21 天里最重要的一晚

6-12 当晚,Anthropic 在博客发布长篇声明,核心动作不是配合下架,而是拿出可独立验证的技术证据:Anthropic 团队对 8 款主流模型进行了复测——Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、OpenAI GPT-5.4、GPT-5.5、Kimi K2.7——所有 8 款模型均能产出与 Amazon 报告所述相同的利用代码演示。Anthropic 在声明中明确表态:该技巧并未暴露 Mythos 级独有的网络攻击能力;Amazon 报告中所示能力并非 Fable/Mythos 系列独有,而是当时主流模型普遍具备的能力。

这是一份反常规的厂商姿态:

处置姿态	过去的先例	Anthropic 在 6-12 当夜的姿态
配合下架,等待修复后回归	2023 意大利禁止 ChatGPT、2024 OpenAI 董事会风波、2025 各类 bug bounty 暂停	不采用
公开承认问题,提出整改时间表	多数厂商的事故响应模板	不采用
公开反驳管制理由,附独立可复测的技术证据	无清晰先例	采用

这件事在过去任何一次「模型下架」事件中都没有出现过。Anthropic 在管制下达的同一天,既同意依法暂停访问(否则无法在美方市场继续运营),也不同意管制方对该能力的定性(认为这是主流模型普遍具备的能力,不是 Mythos 独有的危险能力)。这种「遵守但不同意」的姿态,等于把「管制方判定」与「技术事实」拆成两条线分别处理——技术事实不接受管制方的定性,管制方的处置动作则依法配合。

6-12 当夜的这份声明,为后续 21 天的走向奠定了基调:Anthropic 没有把这次事件当成「一次下架」来处理,而是当成「一次需要被回应的管制判断」来处理。回应的方式不是诉讼、不是公关,而是可独立验证的技术证据。这种姿态后来成为 CAISI 在 6-30 给出「extraordinarily strong」认可的逻辑前提——CAISI 测试认可的不是「Anthropic 把问题修好了」,而是「Anthropic 给出的能力评估是经得起复测的」。

「6-26 → 6-30」:管制分两批解除,CAISI 的独立背书

接下来 18 天,管制进入「分批解除」节奏,这条节奏本身揭示了 AI 出口管制的另一层结构性难题:

6-26(下架后第 14 天):美方批准 Mythos 5 向特定美国组织恢复访问。Mythos 5 是发布时范围最窄的模型(仅 Glasswing 伙伴),却率先恢复——这意味着管制方对「危险能力」的判定与「分发范围」并无直接对应,而是按「美方可控的用户群体」作为解除条件。
6-30(下架后第 18 天):美方解除 Fable 5 与 Mythos 5 的出口管制;Anthropic 发布「Redeploying Fable 5」长公告,公开新 safety classifier 拦截率 >99%、4 维度框架、政府合作四项承诺。

整个解除周期是 21 天(6-12 → 6-30 / 7-1),其中 Mythos 5 比 Fable 5 早 4 天恢复——管制方对「窄分发 + 美方可控」的模型先放行,对「宽分发 + 全球用户」的模型后放行,这本身是一份清晰的处置梯度。

CAISI(Center for AI Standards and Innovation,隶属美国商务部) 在解除管制前对 Anthropic 的新 safeguard 进行了独立测试,给出的表述是「these safeguards are extraordinarily strong」——一份定性表述,认可的是「测试方法 + 测试覆盖度」,而不是「在 N 条测试样本上拦截 N 条」。这把 CAISI 的角色定位从「政府背书机构」变成「政府侧的独立测试机构」——这件事的行业意义不亚于 Fable 5 本身重新可用。

「7-1 重启」:新 classifier、4 维框架、四项政府承诺、HackerOne 四件套同日落地

7-1 当天,Anthropic 同步推出四条相互嵌套的工作流——这也是「Redeploying Fable 5」公告内容密度的来源。

(1)新 safety classifier,对 Amazon 报告所示 bypass 拦截率 >99%。 Anthropic 的真实表述是:「The new classifier means that the specific technique described in the Amazon report is blocked in over 99% of cases. In a very small fraction of cases the model may provide information that isn’t detailed enough to help a cyberattacker.」——即对该特定技术的拦截率 >99%,极小概率下模型会返回「信息不够详细到对攻击者有用」。CAISI 的认可不是「指标超 99%」,而是「these safeguards are extraordinarily strong」——一份定性表述,落在「测试方法 + 测试覆盖度上认可」。

但 Anthropic 在公告里同步明示了代价:「The new classifier also comes at the cost of flagging benign requests more often during routine coding and debugging tasks.」——常规编码和调试任务中被误报的良性请求频率上升,处理路径是自动转由 Opus 4.8 处理被拦截请求,并承诺「持续优化以更好区分真实滥用与合法请求、降低 false positives」。

把这一段连起来读,Anthropic 实际上是在做一次公开的工程取舍声明:

维度	旧版本(下架前)	新版本(7-1 重启)
拦截目标	多种已知 jailbreak	Amazon 报告所示 bypass + 类似手法
Safety margin	默认	刻意调高(导致 false positive 上升)
失败处理	模型自评 + 用户反馈	自动转 Opus 4.8 + 持续优化
验证机构	内部 + 私人第三方	内部 + 私人第三方 + 美商务部 CAISI
监控	内部监控	24/7 关键 jailbreak 提交渠道监控

这是一份主动将 safety sensitivity 调高的策略——Anthropic 在公告里写明白了「短期 false positive 上升」,等于承认这是「recall > precision」的取舍。这件事的份量要看后面的:7-7 之后 Fable 5 转入 usage credits 计费阶段,「自动转 Opus 4.8」这条短期路径的边际成本(用户感知的能力差异、Opus 4.8 价格、延迟)会开始真正显示在账单上。届时 Anthropic 必须交出 classifier 迭代后的真实 false positive 曲线。

把这一段再放回横向坐标——OpenAI、xAI、Google 在过去两年里都没有把 safety classifier 的工程取舍明确写在「恢复访问」公告里。Anthropic 这次的写法(直接承认 false positive 上升)等于给同业立了一个示范:要么在公告里同步承认证取舍,要么被默认推断为「不披露」。这件事对全行业的安全营销话术是隐性收紧。

(2)jailbreak 严重性 4 维框架。 四维度分别是:

Capability gain(能力增益):若已有工具(含其他较弱模型)可达同等能力则低分;若解锁能显著加速领域专家能力则高分。
Breadth of capability gain(能力增益广度):同一 jailbreak 技术适用的不同攻击任务数量——仅适用窄目标则低分;可作用于多目标/多技术则高分。
Ease of weaponization(武器化难易度):转化为攻击所需人工——需大量专业提示与重试则低分;单次提示或初次尝试即可则高分。
Discoverability(可发现性):技术获取难度——需专业知识则低分;已广泛为人知并在线可得则高分。

这四维度把「jailbreak 风险」从「能否触发」二元判断,迁移至「触发后多严重」的可打分维度。这是 AI 安全治理与 FIRST.org CVSS 漏洞打分体系同一脉络上的关键一步——传统漏洞打分从「是否能利用」迁移到「exploit 利用有多严重」花了 20 年,AI 领域在这一份公告里完成了同样的迁移。区别是 AI 侧这次有 Amazon、Microsoft、Google 三家头部厂商同步签字背书而非单点提案。两套体系的维度可以对照如下:

CVSS 思路(传统漏洞)	Anthropic 4 维(AI jailbreak)
利用难度(Exploitability / Attack Complexity)	Discoverability(可发现性)
影响范围(Scope / Confidentiality / Integrity / Availability)	Breadth of capability gain
利用成本(Attack Complexity / Privileges Required)	Ease of weaponization
价值核心(Impact Sub Score)	Capability gain

如果 OpenAI / xAI / Google / Meta 在 90 天内公开签字加入,这套框架会被引用为「CVSS-AI」的事实标准雏形,反过来影响 NIST / FIRST.org 的官方打分体系。这是这次公告对整个 AI 安全生态最大的可能外推——它给 AI 安全的下游研究、监管引用、跨厂商对齐提供了第一个可被共同引用的维度坐标。

(3)与美方合作深化为四项可追责承诺。 Anthropic 与美方合作从过去 2 年的 pre-deployment 测试扩展为四项可追责承诺。每条都有明确动作与对接方,这件事意味着「Anthropic 与美方合作」从此不止是原则声明,而是可逐项核对的清单:

承诺	核心动作	对接政府方	时间节点
发布前政府评估	显著推进能力前沿且涉及国家安全的模型,发布前向指定政府合作伙伴提供扩展早期访问;派驻 Anthropic 技术人员与政府评估人员协同	ONCD、OSTP、商务部(CAISI)、国家安全机构	Opus 4.9 / Mythos 6 等更强模型发布前
紧急信息共享	发现重大 jailbreak 或滥用模式时分流并通知美方、分享新 safeguards 供独立测试、发布前提供威胁情报报告、参与 6-2 行政命令第 2(d) 条设立的政府间漏洞交换所	商务部(CAISI)、国家级 CERT	持续;7-1 后 30 天内验证漏洞交换所是否启动运作
专项联合研究资源	设立专门 Anthropic 团队、提供大量计算资源支持政府测试与研究、贡献 safety 与 red-teaming 能力	商务部、ONCD	持续
共同行业标准	与政府及同业共同制定自愿性安全与评估标准;贡献可在全行业适用的评估、工具与最佳实践	NIST、白宫	90 天内公布对应量化细则

对照白宫 2026 年 6 月 2 日行政命令「Promoting Advanced AI Innovation and Security」(其中第 2(d) 条设立了「政府间网络安全漏洞交换所」),这四项承诺的潜台词是:Anthropic 已经把这份政策大框架变成了自己的执行清单。

更关键的是第 2 条(紧急信息共享):它把「Anthropic 自己发现的 jailbreak」与「Anthropic 收到的外部 jailbreak 报告」都纳入了对美方的快速通知义务。这意味着未来任何一家厂商报告的 Anthropic 模型 jailbreak 都会被自动同步到美方——这等于把漏洞披露从「厂商侧」扩展到「政府侧」,对全行业的安全通报节奏是结构性变化。

「专项联合研究资源」一条里Anthropic 直接承诺提供「大量计算资源」支持政府测试与研究——这件事的份量要看后续披露:算力规模、覆盖模型范围、是否会成为 Anthropic 在「联邦 vs 商业」取舍上的一个标志性动作,目前都未披露。

(4)HackerOne 顶级悬赏与 24/7 监控。 https://hackerone.com/anthropic-cyber-jailbreak/ 是面向安全研究员悬赏 Fable 5 中可被利用 cyber jailbreak 的端口——这并非一个新设平台,而是 HackerOne 上挂名 Anthropic 的高级悬赏渠道。它的意义不亚于 Anthropic 2024 年起的 Responsible Scaling Policy:把「jailbreak 风险」从「内部红队」拓宽到「全球研究员奖金驱动」。配套的 24/7 关键 jailbreak 提交渠道监控,是把 HackerOne 收到的提交与企业侧的滥用监控接入到同一处理流——确保「报告上来 → 几小时内分流 → 通知美方 → 修复 → 更新 classifier」成为可重复的 SLA。

「7-7 后」:商业化路径的「半数可用」与云分发渠道断点

7-1 重启后,Fable 5 在四个 Anthropic 自有平台(Claude Platform / claude.ai / Claude Code / Claude Cowork)同步上线,但云分发渠道(AWS / Google Cloud / Microsoft Foundry)接入仍待恢复——这是多数企业客户访问 Fable 5 的实际通道:

平台	状态	时间节点
Claude Platform	已恢复	7-1
claude.ai	已恢复	7-1
Claude Code	已恢复	7-1
Claude Cowork	已恢复	7-1
AWS	未恢复	「尽快」
Google Cloud	未恢复	「尽快」
Microsoft Foundry	未恢复	「尽快」

云分发渠道的恢复时点之所以重要,在于:多数企业客户是从这些云厂商接入 Fable 5 的,直接影响生产环境的真实可用体感。三家云厂商未在 7-1 同步恢复,意味着 Anthropic 在「合规复审」上还要走一道云厂商自己的再审流程——这件事是否会成为云厂商代售头部模型的「合规再审」新常态,目前没有先例可对照。

LMArena 官方 X 在 Fable 5 重启当天宣布 Fable 5 已回到 Agent Arena 与 Text/Vision/Document/Code Arena 四个子榜,并重申**「Fable 5 首发时即拿下 Agent Arena #1」——Agent Arena 基于全球用户提交的真实长链路 agent 任务,允许使用网页搜索、文件系统、终端工具,并使用因果追踪衡量模型相对平均水平的实际增益。21 天的市场真空期让 OpenAI GPT-5.5 / Google Gemini 3 / xAI Grok 有机会反超——但LMArena 是否会公布 7-1 回归后的对照评分,以及 Agent Arena 在这段时间是否被反超,目前未披露**。

商业化节奏上,Pro/Max/Team 档的 50% 周配额被业内解读为「先用后付费的过渡窗口」:

订阅档位	7-7 前	7-7 后
Pro	50% 周配额免费	usage credits 计费
Max	50% 周配额免费	usage credits 计费
Team	50% 周配额免费	usage credits 计费
标准 Enterprise	无 Fable 5 配额	启用 usage credits 后才能访问
Premium Enterprise	Fable 5 含订阅内,无额外费用	Fable 5 含订阅内,启用 usage credits 后可继续

这套「50% 周配额 + 7-7 截止 + usage credits」的组合,让 Anthropic 在「商业化收入 + 出海合规」之间做了一个清晰的中间路径:对个人用户保留体验,对企业用户保留分档选择——标准 Enterprise 最严格(7-7 前连访问都没有),Premium Enterprise 最宽松(7-7 前含订阅)。

Mythos 5 仍仅向美方批准的美国组织开放,配套 30 天客户数据保留期(用以研究并缓解非通用型 jailbreak)。这把 Mythos 5 从「发布时仅 Glasswing」迁移到了「6-26 起特定美国组织」,但从未扩到非美方组织。Project Glasswing 是否会真正扩展到英国 AISI、欧盟 AI Office、日韩 AI 安全机构,是 2026 下半年 AI 出口管制多边化的观察点。

早报观点

把这次 21 天的事件放回 2026 年中 AI 治理语境,真正值得记下来的不是「恢复访问」,而是这件事改写了 AI 安全治理的「动作清单」——把过去两年所有零散的承诺(2024 起的安全等级政策、2025 的 pre-deployment 测试、CAISI 测试、政府合作)合并为一份可验证、可追责、可外推到同业的产品契约。最大的行业先例不是 >99% 拦截率的新 classifier,是把 AI 漏洞治理从「厂商内部」首次推到「厂商-政府-竞品-漏洞研究员四方共建」的可对齐标准——这是 6-2 白宫行政命令原本设想的「发布前政府评估、紧急信息共享、行业标准共建」在第一个落地案例中的真实形态。

**先说为什么「8 款模型复测」是这次事件最重要的技术姿态:**6-12 当夜 Anthropic 没有选择「配合下架、等待修复、公开道歉」的传统路径,而是公开拿出「该能力 8 款主流模型都能复现」的技术证据——把「管制方判定」与「技术事实」拆成两条线分别处理。技术事实不接受管制方对「Mythos 独有危险能力」的定性,管制方的处置动作则依法配合。这份姿态的可贵之处在于:它把 AI 安全治理从「管制方说了算」迁移至「管制方判定 + 厂商技术证据 + 政府独立测试」的三角结构——这意味着任何后续的同类管制,都需要管制方拿出更细的能力边界证据,而不是单凭一份内部研究报告触发全模型下架。Anthropic 6-12 的这份反驳,等于为所有模型厂商在出口管制事件里争取到了一个「反驳权」的先例。

**再说 4 维框架为什么是「AI 安全的 CVSS」雏形:**Capability gain / Breadth / Ease of weaponization / Discoverability 这四个维度,把 jailbreak 风险从「能否触发」二元判断迁移至「触发后多严重」的可打分维度。CVSS 花了 20 年把传统漏洞打分从「是否能利用」推进到「exploit 利用有多严重」;AI 领域在 Anthropic 这份公告里用 4 个维度完成了同一次迁移,只是把 CVSS 的 4 个 metric 重新映射到 AI 场景。区别是 AI 侧这次有 Amazon、Microsoft、Google 三家头部厂商同步签字背书——意味着这套框架如果被 NIST / FIRST.org 接纳,等同为美国 AI 出口管制与技术评估体系奠定了一个非官方的工业基准。这对中、欧、日韩的监管者来说是一个全新的坐标:他们未来出台 AI 安全评估标准时,要么主动对齐这套 4 维框架,要么被默认推断为「标准不接轨」。

再说为什么「>99% 拦截率 + 短期 false positive 上升」是一份工程取舍声明,而不是技术炫耀:新 classifier 的拦截率 >99% 是这份公告里最显眼的数字,也是最容易被误读的数字。CAISI 的认可不是「指标超 99%」,而是「these safeguards are extraordinarily strong」——一份定性表述。Anthropic 在公告里同步明示「常规编码与调试任务中被误报的良性请求频率上升,处理路径是自动转 Opus 4.8」——这是一份主动将 safety sensitivity 调高的策略,等于承认这是「recall > precision」的取舍。这件事对全行业的安全营销话术是隐性收紧——OpenAI / xAI / Google 在过去两年都没有把 safety classifier 的取舍写进公告,Anthropic 这次的写法等于给同业立了一个示范:要么在公告里同步承认证取舍,要么被默认推断为「不披露」。这件事的影响会延续到 2026 下半年的每一份「我们升级了安全策略」公告。

**最后说为什么「21 天分水岭」比「4 维框架」这件事更重要:**这次事件的真正叙事弧线,是「管制触发 → 厂商反驳 → 政府独立测试 → 框架性承诺」的完整闭环——这意味着 AI 安全治理从「单家防御」迁移到了「行业协作标准」的可对齐轨道。Fable 5 不是第一次出现模型被下架(过去几年里发生过多次),但 Fable 5 是第一次把「下架 → 修复 → 重启」跑成「下架 → 反驳 → 修复 → 独立背书 → 框架承诺」的完整治理闭环。这个闭环本身,就是 2026 年中 AI 治理最大的行业先例。

但反方 caveat 必须摆出来。 一) 事件闭环只覆盖「下架-重启」段,真正「行业标准共建」是否兑现要看 Amazon/Microsoft/Google 是否在后续 90 天内公开签字,以及 OpenAI/xAI 是否加入;CAISI「extraordinary strong」表述属于定性而非定量独立 benchmark——CAISI 没有公开测试样本规模与通过率,这份认可目前仍是「政府测试方对厂商工作的定性肯定」,不是「在公开数据集上的对照成绩」。二) 4 维框架本身是描述性维度,尚无对应量化打分细则;谁牵头、谁来维护、遇到分歧如何仲裁仍未规定——OpenAI 在过去两年坚持安全策略相对独立(RLHF、Constitutional AI、自身 red team),加入 Anthropic 主导的 4 维框架意味着让出一部分行业话语权。三) 新 classifier 的 false positive 曲线未披露;「自动转 Opus 4.8」的短期路径无法撑过 7-7 后 usage credits 计费的体量,真实成本会从账单上显形——Anthropic 必须交出 classifier 迭代后的真实 false positive 曲线,而目前没有任何承诺的发布节奏。四) 美方是否有能力在后续通过 API/SDK 级别实现「国籍核验」避免「全模型下架」,目前没有任何一方的政策文本明确承诺——这意味着下一次「同款触发条件」出现时,OpenAI GPT-5.5、xAI Grok、Google Gemini 3 系列都可能在同一份 Amazon 报告射程内,而它们的厂商未必会像 Anthropic 这样拿出「8 款模型复测」的技术证据。五) Anthropic 与美方合作深化是否会延伸到「训练数据审计」层,是更宏观的开放问题——若延伸,会改变 2025 年起各家都在用的「训练数据 outbound 监管」节奏;若不延伸,则这次合作仍停留在「输出侧 safeguard」层,不会触及上游数据流动。

**最后一句 punchline:**Fable 5 的 21 天不是一次「监管事件」,而是 AI 安全治理的「分水岭星期」——此后任何一次「模型 + jailbreak」组合的争议,都默认进入「四家厂商 + 美政府 + 漏洞研究员」的可对齐标准轨道。Anthropic 用一次出口管制事件,把 AI 安全的标准化话语权钉到了协议层,而不是任何一家厂商可以独自承担的产品功能。这件事的方向性意义,远大于公告里那个 >99% 的具体数字。

接下来看什么

短期 7-15 天: Anthropic 7-7 转入 usage credits 计费后,新 safety classifier 的真实 false positive 曲线是头号观察点——常规编码/调试任务被误报转 Opus 4.8 的频次、用户感知的能力差异、退订率,会直接决定下一份版本是否仍采取「recall > precision」策略;同期 AWS / Google Cloud / Microsoft Foundry 三条云分发渠道的恢复时点是企业客户最重要的可用体感指标;CAISI 是否在 7-1 回归 30 天内公布独立测试的方法论与样本规模,是「政府测试方背书能否外推到同业」的第一次验证。

中期 30-90 天:「行业首个 jailbreak 严重性 4 维框架」是否进入量化打分阶段。Anthropic、Amazon、Microsoft、Google 是否在 90 天内公布对应打分细则(权重、阈值、定级表述);OpenAI / xAI / Meta 是否会签字加入——这一步会决定这套框架是「Anthropic 主导的行业标准」还是「4 家美企内部的工业基准」;美国白宫 6-2 行政命令第 2(d) 条漏洞交换所是否在 7-1 重启后 30 天内启动实际运作,是「政府合作深化」承诺的第一条验证;HackerOne 首次公开披露的 cyber jailbreak 漏洞与赏金规模,是「漏洞披露从厂商侧扩展到政府侧」承诺的第一次外部可见的输出。

长期: Mythos 5 的访问范围扩展节奏——美方批准的美国组织名单是否扩容;Project Glasswing 是否会真正扩展到非美国伙伴(英国 AISI、欧盟 AI Office、日韩 AI 安全机构);Mythos 5 与 Fable 5 是否会出现「同一底层 + 不同 safeguards」模型产品范式的扩散——这意味着 AI 出口管制的标的物可能从「模型整体」转向「按能力配置生效」;以及 Anthropic 与美方 ONCD/OSTP/财政部/商务部后续合作是否会延伸到「训练数据审计」层,若延伸则改变 2025 年起各家都在用的「训练数据 outbound 监管」节奏。

反方观察: Amazon 那份研究报告中「jailbreak 该方法是否会被进一步披露」是这次事件最大的信息黑洞。如果原报告被 Anthropic 或 Amazon 进一步脱敏公开,4 维框架的有效性会真正被验证——具体哪些攻击任务被列为「高 breadth / 高 capability gain」,会变成其他厂商对齐自己 safeguard 的事实坐标;如果原报告保持不公开,这次事件就只是「Anthropic 公告 + 8 款模型复测」的内部闭环,而非「可外推到 OpenAI/xAI/Google 后续模型」的横向压力测试。这份报告的脱敏节奏,比任何公告都更能决定 4 维框架能否真正落地为行业标准。

附录:Fable 5 重启关键事实速查

项目	内容
模型名	Claude Fable 5(Mythos 5 同期重启,仅限 Glasswing + 美方批准美国组织)
发布方	Anthropic
启动事件	2026-06-09 发布;2026-06-12 全量暂停;2026-06-26 Mythos 5 部分恢复;2026-06-30 出口管制解除;2026-07-01 Fable 5 全球恢复
下架持续期	21 天(6-12 → 6-30 解除 / 7-1 回归)
已知被复测能产出相同利用代码的模型	Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5、Kimi K2.7(共 8 款)
新 safety classifier	对 Amazon 报告所示 bypass 拦截率 >99%;代价是常规编码/调试误报率上升,自动转 Opus 4.8
政府测试方	美国商务部 CAISI(Center for AI Standards and Innovation)认可新 safeguard「extraordinarily strong」
行业框架	Jailbreak 严重性 4 维评估框架(Capability gain / Breadth / Ease of weaponization / Discoverability)
联署厂商	Anthropic、Amazon、Microsoft、Google(均为 Project Glasswing 伙伴)
HackerOne 悬赏	https://hackerone.com/anthropic-cyber-jailbreak/(cyber jailbreak 专项)
监控	24/7 关键 jailbreak 提交渠道监控
政府合作四项承诺	发布前政府评估;紧急信息共享(参与 6-2 行政命令第 2(d) 条漏洞交换所);专项联合研究资源;共同行业标准
政府对接部门	ONCD、OSTP、财政部、商务部(含 CAISI)、相关国家安全机构
Mythos 5 现状	共享 Fable 5 底层模型,safeguards 较少;仅向小部分 Project Glasswing 伙伴 + 美方批准美国组织提供
Mythos 5 数据保留	30 天
Fable 5 商业化	Pro/Max/Team:7-7 前含最多 50% 周配额免费额度,7-7 后转 usage credits;标准 Enterprise:7-7 前无 Fable 5 配额,启用 usage credits 后才能访问;Premium Enterprise:7-7 前含 Fable 5、无额外费用
平台恢复状态	Claude Platform / claude.ai / Claude Code / Claude Cowork 已恢复;AWS / Google Cloud / Microsoft Foundry 未恢复
LMArena	Agent Arena #1(首发);7-1 起同步上线 Text / Vision / Document / Code Arena 四个子榜
关键背书	Anthropic 6-12 反驳证据齐全(8 款模型复测)、CAISI 独立测试认可、白宫 6-2 行政命令政策对接

Claim Audit

Anthropic 在 21 天里完成了一次完整的「政府管制触发 → 厂商复测反驳 → 技术修复 → 政府复测认可 → 框架性承诺」的治理闭环,而非简单的「被迫下架」,这是 2026 年大模型安全治理的第一个可参照样本。

置信度：high

Anthropic 6-12 声明同时附技术反驳(8 款主流模型都能复现,证明「独有 Mythos 级能力」不成立)
美方 6-30 解除管制 + CAISI 测试认可新 safeguard「extraordinarily strong」
Anthropic 把 HackerOne 悬赏、24/7 监控、政府发布前预评估、专项联合研究、行业标准共建固化为四项可验证承诺

事件完整闭环只覆盖了「下架-重启」段,真正的「行业标准共建」是否兑现要看 Amazon/Microsoft/Google 是否在后续 90 天内公开签字;CAISI 的「extraordinary」表述属于定性而非定量独立 benchmark

Jailbreak 严重性 4 维框架(Capability gain / Breadth / Ease of weaponization / Discoverability)的行业意义不亚于模型本身的发布:它首次把「jailbreak 风险」从「能否触发」推进到「触发后多严重」的可打分维度,实质上把漏洞评分从「能不能」拓展为「有多大用」。

置信度：high

Anthropic 博客明示 4 维度定义:能力增益越超越现有工具越严重、适用攻击任务越多越严重、所需人工越少越严重、获取难度越低越严重
FIRST.org 的 CVSS 漏洞打分系统也是同一思路(从「存在」到「打分」的跃迁),可作为先例对照
Anthropic 明确把这一框架定位为「邀请同业加入」的行业级而非企业级标准

框架本身是描述性维度、尚无对应量化打分细则;谁牵头、谁来维护、遇到分歧如何仲裁仍未规定;OpenAI/Google/xAI/Meta 是否会公开对齐表态仍待追踪

Mythos 5 与 Fable 5 在同一份管制令里被「同下架、分开恢复」,恰好暴露了 AI 出口管制的结构性难题:出口管制按模型版本号而非按能力配置生效,而商用大模型「同一底层 + 不同 safeguards」是常态——这意味着出口管制一旦触发,波及范围远超管制者原本意图。

置信度：high

Anthropic 在 6-12 声明中明确指出:管制方「无法实时核验国籍」是触发全部用户暂停的直接技术原因
Anthropic 6-9 发布时 Mythos 5 仅向 Project Glasswing 伙伴开放(原本范围就极窄),但仍被一并下架
Fable 5 7-1 全球恢复,Mythos 5 仍仅向美方批准的美国组织开放;Fable 5 即使恢复也只在 Glasswing 内被允许

美方是否有能力在后续通过 API/SDK 级别的「国籍核验」避免「全模型下架」,目前没有任何一方的政策文本明确承诺;这条结构性难题的未来处置不属于本次事件能给出答案

新 safety classifier 的 >99% 拦截率伴随着「常规编码与调试任务误报率上升」的代价,这是一份清晰的工程取舍声明:Anthropic 在「安全敏感度」一侧主动偏向高召回(short-term tradeoff),而不是要求现有用户接受风险。

置信度：high

Anthropic 博客明示:新 classifier 为拦截 Amazon 报告所示 bypass 故意将 safety margin 调高,导致「良性请求被 flag 频率上升」
短期处理路径是把被拦截请求自动转 Opus 4.8
Mitigation 承诺:持续优化、更好区分真实滥用与合法请求、降低 false positive

误报率具体数据未披露;「自动转 Opus 4.8」的隐含成本(用户感知到的能力差异、Opus 4.8 价格与延迟)未量化;这条短期路径无法撑过 7-7 后进入 usage credits 计费阶段的体量

LMArena 同日宣布 Fable 5 重回 Agent Arena,且 Fable 5 首发时拿下 Agent Arena #1,意味着这次 21 天的中断不只关乎安全治理,也是市场上首个「AGI 级模型被政府出口管制打断商业节奏」的标志性事件。

置信度：medium

LMArena X 公告:Fable 5 首发时在 Agent Arena(基于全球用户提交的真实长链路 agent 任务,允许网页搜索/文件系统/终端工具,因果追踪衡量)拿下 #1;7-1 起同步上线 Text/Vision/Document/Code Arena 四个子榜
Anthropic 同日发文强调 Fable 5 在 Pro/Max/Team/select Enterprise 档可用,商业化路径未断
AWS/Google Cloud/Microsoft Foundry 接入仍待恢复,提示云分发渠道侧仍有断点

Agent Arena 的 #1 排名是否在 21 天内被其他模型反超、LMArena 是否会公布 7-1 回归后的对照评测,目前未披露

Timeline

2026-06-09

Anthropic 发布 Claude Fable 5 与 Claude Mythos 5(共享底层模型;Mythos 5 仅向 Project Glasswing 合作伙伴开放)

2026-06-12 17:21 ET

美国商务部基于国家安全权限发布出口管制,因 Amazon 研究者报告可绕过 Fable 5 safeguard 识别软件漏洞并产出利用代码,要求暂停所有用户(含外籍员工)访问;Fable 5、Mythos 5 全球同步暂停

2026-06-26

美方批准 Mythos 5 向特定美国组织恢复访问

2026-06-30

美方解除 Fable 5 与 Mythos 5 的出口管制;Anthropic 发布「Redeploying Fable 5」官方公告

2026-07-01

Fable 5 全球恢复可用(Claude Platform / claude.ai / Claude Code / Claude Cowork);新 safety classifier 上线;4 维度 jailbreak 严重性框架邀请同业加入

2026-07-07

Fable 5 在 Pro/Max/Team 档「50% 周配额免费额度」截止;之后该模型访问转 usage credits 计费;AWS / Google Cloud / Microsoft Foundry 接入恢复进度待披露

Sources

official · Anthropic 官方博客:Redeploying Fable 5 拦截率 >99% 的具体表述、4 维度框架定义、HackerOne 链接、四项政府合作承诺、CAISI 测试认可、配额时间表、平台接入状态、Mythos/Fable 接入范围 official · Anthropic 官方博客:Fable/Mythos Access(6-12 声明) 6-12 出口管制的直接触发原因(Amazon 研究者报告 + 5:21pm ET 收到指令)、Anthropic 技术反驳(8 款模型复测)、30 天数据保留、universal vs non-universal jailbreak 区分、防御纵深策略 official · 白宫 6月2日行政命令:Promoting Advanced AI Innovation and Security 本次治理动作的政策大背景——6-2 行政命令已为「发布前政府评估、紧急信息共享、政府间漏洞交换所」奠基,Fable 5 事件是这条政策框架的首个落地案例 official · 美国商务部 CAISI(NIST.gov 引用页) CAISI 隶属商务部、专门测试模型 safeguards,在 Fable 5 事件中给出「extraordinarily strong」认可——是政府侧唯一被点名的独立测试机构 benchmark · FIRST CVSS 评分系统把 Anthropic 4 维度框架对照传统漏洞打分体系,论证「Jailbreak 从『能否触发』到『多严重』的标准化打分思路并非先例 official · AnthropicAI 官方 X:Fable 5 全球恢复公告美方解除管制公告的二次确认 + 全球恢复时间表 official · AnthropicAI 官方 X:重新部署细节 + 行业框架邀请新 classifier + 行业框架 + 政府合作深化三条线的官方表态 community · LMArena 官方 X:Fable 5 重回 Agent Arena Agent Arena 评测方法论(因果追踪衡量模型相对平均水平的实际增益)+ Fable 5 首发 #1 / 7-1 全 Arena 上线的事实坐标 community · dotey X:Fable 5 配额时间表解读 Pro/Max/Team 档 50% 周配额 / 7-7 截止 / usage credits 节点的中文圈二次解读,补充官方公告未明确的微观配额节奏

Watch Next

Jailbreak 严重性 4 维框架的量化细则:Anthropic 是否会在 90 天内联合 Amazon/Microsoft/Google 公布对应打分细则(权重、阈值、定级表述),以及 OpenAI/xAI/Meta 是否会签字加入
新 safety classifier 的误报率实际表现:常规编码/调试任务的 false positive 率、用户被自动转 Opus 4.8 的频次与感知差异,以及 7-7 转入 usage credits 计费后的真实成本曲线
Mythos 5 后续访问范围:美方批准的美国组织名单是否扩容、Project Glasswing 是否会真正扩展到非美国伙伴(英 AISI / 欧盟 / 日韩)、防御性网络安全用途的可审计记录
政府侧四项承诺的兑现进度:发布前政府评估是否覆盖 Opus 4.9 / Mythos 6 等更强模型、6-2 行政命令第 2(d) 条漏洞交换所是否在 Fable 5 7-1 回归 30 天内启动实际运作
OpenAI / Google / xAI 的反应:是否会同步发布自身的安全 classifier 与 jailbreak 评估口径,以及 CVSS 这种第三方打分体系是否会被引用为跨厂商对照工具
AWS / Google Cloud / Microsoft Foundry 接入恢复时点:7-7 前能否同步,直接关系云分发渠道上 Fable 5 的实际可用体感
Anthropic 与美方 ONCD/OSTP/财政部/商务部后续合作公开度:涉及人员派驻、计算资源规模、red-teaming 能力共享的细节披露节奏

待解问题

Amazon 那份被美方援引的研究报告本身是否会被脱敏公开?若是,Anthropic 会以何种方式回应原报告作者的进一步发现,这种对话如何不破坏「四大厂商联合起草」的多边姿态?
OpenAI 的 GPT-5.5、xAI 的 Grok、Google 的 Gemini 3 系列是否会被美方以「同款触发条件」同步要求暂停?同一份 Amazon 报告技术能力是横向可复现的,这意味着任何同档模型都可能进入同一管制射程
Anthropic 与美方 ONCD/OSTP/财政部/商务部后续合作是否会延伸到「训练数据审计」层?若延伸,会否改变 2025 年起各家都在用的「训练数据 outbound 监管」节奏?
HackerOne 悬赏(https://hackerone.com/anthropic-cyber-jailbreak/)的实际提交量与处置节奏:会不会变成下一个「开源 LLM 漏洞披露」的样板?
AWS / Google Cloud / Microsoft Foundry 三条云分发渠道的恢复时点为何滞后?是否涉及云厂商自身的合规再审核?这是否会成为云厂商代售头部模型的「合规再审」新常态?
Jailbreak 严重性 4 维框架如果真的被 FIRST.org / NIST 收录,会反过来影响 CVSS 这类传统漏洞打分体系吗?这套 AI 专属打分体系是否会成为下一代 CVSS-AI 的雏形?