产品上新

Superpowers 6.0 提速 50% 属实,但「接入 Fable 5」是误读——一篇事实核查

框架升级和模型回归是两件事——别让拼装出来的标题把方法论提升淹没在 AI 玄学里。

2026年7月5日 · 周日深度报告低置信重要度 3/5

#obra/superpowers #agentic skills framework #subagent-driven-development #Fable 5 #LMArena #事实核查 #Claude Code #Codex

本文要点

从「一条二手叙事:superpowers 接入 Fable 5 提速 50%」拆为「两个彼此独立的事件」。
从「提速 50% 速度」修正为「约 2x 速度(roughly twice as fast)= 约 50% 耗时下降」,数学上不等价
「50% 减 token」不来自 Fable 5,而来自评审流重写;评测对象是 Claude Code 与 Codex。

阅读辅助

先看数字、证据和来源，再读正文。

~2x v6.0.0 内部评测速度提升

~50% v6.0.0 内部评测 token 下降

5 条 Claim Audit

obra、superpowers v6.0.0 的工作流提速(约 2x)与 token 下降(约 50%)来自评审流重写,而非接入任何新模型

5 个时间点

2026-06-09 · Anthropic 发布 Claude Fable 5 与 Claude Mythos 5,与 obra、superpowers 无产品交集

6 个来源 4 个非 X 来源

一、标题里的三件事,各自能找到多少证据

把任务标题拆开看,有三件事被绑在一起:Superpowers 6.0、接入 Fable 5、工作流层提速 50%。我用 primary sources 一一对账,结果如下:

主张	证据状态	出处
obra/superpowers v6.0.0 提速	可证实,数字为「roughly twice as fast」	v6.0.0 release notes
提速来自工作流层	可证实,指 `subagent-driven-development` 评审流重写	v6.0.0 release notes
「50%」这个数字	部分可证实,实际写的是「almost 50% fewer tokens」,与「提速 50%」不等价	v6.0.0 release notes
接入 Fable 5	无证据——README / 三条 release notes / harness 清单全无 Fable 字样	缺失
blog.superpowers.dev/fable5 是官方释义	不成立——该 URL 当前 DNS 不解析(`getaddrinfo ENOTFOUND`)	WebFetch 失败
「Fable 5」来自 @arena 等 KOL	可证实,但 KOL 语境是 Anthropic Claude Fable 5 在 LMArena 回归,不是 superpowers	@arena 推文

也就是说,前两条是真的,后三条是合成出来的。提速 50% 来自方法论升级,不是模型升级;「Fable 5」这个词在中文 AI 媒体圈出现的语境是 LMArena 评测回归,与 obra/superpowers 没有任何产品交集。

下面分别展开三件事的真实状态。

二、obra/superpowers v6.0.0 真正改了什么

obra/superpowers 是 Jesse Vincent(obra)维护的 agentic skills framework + 软件开发方法论。它在 GitHub 上有 246k stars / 21.8k forks,MIT 许可,明确支持 10 个 agent harness(Claude Code、Antigravity、Codex App、Codex CLI、Cursor、Factory Droid、GitHub Copilot CLI、Kimi Code、OpenCode、Pi)。它的核心工作流是 7 步:brainstorming → using-git-worktrees → writing-plans → subagent-driven-development → test-driven-development → requesting-code-review → finishing-a-development-branch。

v6.0.0(2026-06-16)的全部改动集中在 subagent-driven-development 这一步——也就是「让多个 subagent 并行开发 + 双 review」这条主干道。

评审流重写:从「双 reviewer」变「单 reviewer 双判决」

旧流程每个 task 派两个 reviewer:spec-reviewer-prompt.md(审需求符合度)+ code-quality-reviewer-prompt.md(审代码质量)。v6.0.0 把这两个 prompt 合并为 task-reviewer-prompt.md,每个 task 只派一个 reviewer,但要给出 三个 verdict:

spec-compliance(需求符合度)
quality(代码质量)
can’t verify from the diff(无法仅从 diff 判定,标记升级)

并在分支末尾做一次 whole-branch review——只调用一次最贵也最强的模型,统一收口。中间每个 task 只用便宜模型做轻量 review。

评审侧的规则也硬化了:reviewer 只读、对 rationale 持怀疑、必须 cite file:line、implementer 必须附 TDD 红绿证据、不允许 pre-rating severity、不允许 suppress findings。

这是提速的核心:评审调用的次数少了(每 task 从 2 次降到 1 次),但末尾统一收口的 whole-branch review 仍然用最强模型,质量不会掉——这是 v6.0.0 release notes 里那个「cheaper, stricter, and harder to game」的全部含义。

工作树目录迁移:破坏性变更

旧版的 worktree 在 ~/.config/superpowers/worktrees/,v6.0.0 删掉这个全局目录,强制把 worktree 落到项目内。这是一个对老用户的破坏性变更,但避免了「全局状态污染跨项目」的隐患。

评测数字:内部 evals,口径未公开

维度	v6.0.0 release notes 原文	数学换算
速度	”roughly twice as fast”	约 2x 速度 ≈ 50% 耗时下降
Token	”almost 50% fewer tokens”	约 50% 减 token
质量	”similar high-quality results”	与基线相当

评测对象是 Claude Code 与 Codex 两个 harness——也就是说,提速测的是这两个 harness 在新评审流下的表现。release notes 没给方法学、样本量、置信区间,这是 obra 自报的内部数字,第三方独立复现尚未出现。

需要特别注意:「2x 速度」与「提速 50%」数学上不等价。前者是速度翻倍(耗时减半),后者是速度提升 50%(耗时降到 67%)。中文标题把两者混用了。

配套的小改动

Kimi Code / Pi / Antigravity 三个 harness 加入插件支持——v6.0.0 同时在拓宽覆盖面
finishing-a-development-branch 不再硬编码 gh pr create——允许其他 PR 工作流
"Claude Search Optimization" 改名为 "Skill Discovery Optimization"——避免框架被误解为只服务 Claude
using-git-worktrees 修 step numbering 与 stale Cursor refs
systematic-debugging 不再强开 extended thinking——降低 token 副作用

v6.1.0(6-30):再砍 token

v6.1.0 的 release notes 把焦点放在「using-superpowers bootstrap 会被注入每个 session,所以它每会话都要付钱」——v6.1.0 裁剪了 bootstrap 与 per-harness references 的文本长度,但不丢行为塑形内容。这是 v6.0.0 提速之后的第二轮 token 优化。release notes 没给具体百分比,只描述了方向。

v6.1.1(7-2):Codex 集成修复

主要修复 Codex hook 在重注册场景下的稳定性问题,完善 package-codex-plugin.sh,没有性能数字。

三、「Fable 5」这个词从何而来——LMArena,不是 superpowers

已采集素材里的「Fable 5」字样只出现在 @arena 的两条推文里:

「Claude Fable 5 回归 Arena。@petergostev 用 60 多个最难 3D 生成测试(现代城市、艺术、世界奇观等)跑了一遍,评价『可能是我们见过最令人印象深刻的模型』。」

「Fable 5 重返 Arena 补充:已上线 Battle Mode 和 Agent Mode 可直接测试,官方排行榜分数即将公布。」

这两条推文的语境是 LMArena(原 LMSYS Chatbot Arena),不是 obra/superpowers。判断依据:

@petergostev 是 LMArena 的常驻评测人,他的「3D 生成 60 题」评测标准是 LMArena 的视觉生成题库
「Battle Mode」与「Agent Mode」是 LMArena 的两个 Arena Mode——前者是 1v1 对决,后者是长任务 Agent 评测。obra/superpowers 没有这两个概念
Anthropic Claude Fable 5 是 Anthropic 在 2026-06-09 发布的前沿模型,经历了 6-12 出口管制、6-26 Mythos 5 部分恢复、6-30 管制解除、7-1 Fable 5 全球恢复访问(参考 7-4 早报《Anthropic 把 AI 越狱打分做成行业标准》一文的事件脉络)

也就是说,「Fable 5」这条信息线和 obra/superpowers 完全平行,各自独立。两条线在 7-4 ~ 7-5 期间被中文 AI 媒体圈合并到了一条标题里。

可能的合成路径有三种:(1) 直接错把 LMArena 评测当成 superpowers 升级;(2) 把 superpowers 的提速数字(50% 减 token)嫁接到 Fable 5 的模型效率叙事;(3) 看到 blog.superpowers.dev/fable5 这种 URL 结构就假定「obra 给 Fable 5 写了官方博客」——但该 URL 当前 DNS 不解析,这条假定无法验证。

不论哪种,primary sources 全都不支持「接入 Fable 5」这个说法。

四、合在一起看:合成叙事的代价

这件事的代价不是「标题党」那么简单。它把方法论提升淹没在了模型玄学里:

方法论价值被低估:superpowers v6.0.0 的真实贡献是评审流的工程优化——单 reviewer + 末端 whole-branch 强模型收口,这是 LLM 时代的「CI 改造」,对所有用 agent 写代码的团队都有直接借鉴价值。把它挂在 Fable 5 上,会让读者以为「换模型就能提速」,忽略评审流本身的改造
数字被混淆:v6.0.0 的「2x 速度」「50% 减 token」是 Claude Code + Codex 在新评审流下的内部 evals;Fable 5 的模型效率完全是另一组数字。混在一起会让从业者错估自己项目的优化路径
信源链被打断:「Fable 5 接入 superpowers」没有任何 primary source,转述者会进入「我看到大家都在说」的回音室。这正是为什么事实核查要写在这里

早报观点

第一,superpowers v6.0.0 的真实工程价值在「评审流重写」,不在「Fable 5」。 单 reviewer 双判决 + 末端 whole-branch 强模型收口,这套设计的核心思路是「用便宜模型做大量局部 review,用贵模型只做一次全局 review」——这是 LLM 时代 CI 设计的一次范式实验。它能不能推广到 LangChain、CrewAI、AutoGen 等其他框架,取决于这套「评审契约」(spec-compliance + quality + can’t verify)能否被其他框架的开发者复用。

第二,「提速 50%」这个中文标题是数学错位 + 模型错挂的合成物。 v6.0.0 的原文是「roughly twice as fast」,意思是速度翻倍、耗时减半——数学上等同于耗时下降 50%,而不是「速度提升 50%」(后者意味着耗时降到 67%)。再加上这个数字评测的是 Claude Code + Codex 两个 harness 的子代理评审流,不是 Fable 5 模型本身的效率。两层错位叠加,让「提速 50%」变成了一个无法被任何独立用户验证的传闻级数字。

第三,「Fable 5 接入 superpowers」是一个无证据的合成叙事。 primary sources 全部不支持——README、v6.0.0 / v6.1.0 / v6.1.1 三条 release notes、harness 清单均无 Fable 字样;blog.superpowers.dev/fable5 当前 DNS 不解析;KOL 推文里的「Fable 5」语境全部是 LMArena。对从业者来说,这条叙事意味着:任何「A 框架接入 B 模型」型的标题,只要没附 primary source 链接,先默认不信,再找原仓库 / 官方博客 / 模型厂商 changelog 三处对账。

第四,这件事也暴露了 AI 新闻消费的脆弱性——模型 + 框架两个独立事件 + 一个不存在的 URL,就能被合成出一条「可信感很强」的标题。 合成成本极低(只用了 3 个真实存在的关键词 + 1 个看似合理的 URL),但核实成本极高(要看 README、3 条 release notes、抓 URL、写事实核查)。这种不对称决定了 AI 媒体圈未来还会反复出现类似合成叙事,从业者要建立「标题-主源」即时核对习惯。

caveat 不能不写:如果未来 7 天内 blog.superpowers.dev/fable5 恢复解析且内容是讲 Fable 5 集成,或 obra 官方账号 / 仓库 commit 出现 Fable 相关字样,本事实核查会被推翻。但在 7-5 这个时点,公开 primary sources 一致不支持「接入 Fable 5」这个说法,本文定性为合成叙事。

五、接下来看什么(可验证跟踪点)

四档观察,每档只看 primary source:

A. 「接入 Fable 5」能否被证伪(7-8 月)

blog.superpowers.dev/fable5 在 7 月内是否能恢复解析——若该 URL 历史上曾存在,可证伪当前事实核查结论;若保持 DNS 失败,叙事继续不成立
obra 官方仓库或官方账号在未来 30 天内是否出现 Fable 字样——commit、issue、release notes、博客,任一处出现即推翻本文
superpowers 下一版本(v6.2 或 v7.0)是否把 Claude Fable 5 加入 harness 矩阵——若加入,本文定性为「时序错位」而非「合成叙事」

B. 提速数字能否被独立复现(7-9 月)

v6.0.0 的「2x 速度 + 50% 减 token」是否被第三方独立用户复现——目前只有 obra 自报,无社区验证。Reddit r/ClaudeAI、Hacker News、Cursor 社区论坛、Dev.to 是潜在信源
v6.1.0 的 bootstrap 裁剪具体减了多少 token——release notes 没给数字,等独立用户 benchmark

C. Fable 5 独立事件链(7-8 月)

Claude Fable 5 在 LMArena 的官方榜单分数是否在 7 月内公布——决定「Fable 5」叙事是否会从 Benchmark 端独立发酵
Anthropic 7-4 早报里那条「越狱打分 CJS 框架」(参考前一深度页) 与 Fable 5 本身的模型效率提升是否会在 7 月内有关联披露

D. 方法论外溢(8-12 月)

LangChain / CrewAI / AutoGen 是否在 90 天内跟进「单 reviewer 双判决 + 末端 whole-branch 强模型」设计——决定 v6.0.0 的方法论能否成为 agentic framework 赛道的工程共识

判断阈值:以上八项中,A 档任何一项被证伪(blog 恢复解析 / 仓库出现 Fable 字样 / harness 矩阵新增 Fable),本文结论被推翻;B 档 1 项以上被独立复现,v6.0.0 的方法论价值被确认;D 档有任一竞品跟进,v6.0.0 进入工程史叙事。

附:信息源限制与本事实核查的边界

blog.superpowers.dev/fable5 当前 DNS 解析失败——本报告对该 URL 的判断基于「DNS NOTFOUND」这一明确证据,但不排除临时网络问题;若该 URL 在读者阅读时已恢复且内容是讲 Fable 5 集成,请以原文为准推翻本文
v6.0.0 的「2x 速度」「50% 减 token」均为 obra 内部 evals,未公开方法学、样本量、置信区间——本文承认这些数字存在,但标记为 obra 自报
@arena 推文里的「Fable 5」语境根据推文文本判定为 LMArena——@petergostev 的 YouTube 评测视频未在本次抓取范围内,严格来说只有 @arena 的两条推文 + LMArena 平台知识可作支撑
未发现 obra 团队官方账号在 X / GitHub Discussions / Discord 上谈 Fable 5 集成——这是负向证据,有「没找到」的局限;理论上不能完全排除私聊 / 内部沟通的可能性
本事实核查的有效期是 7-5 这个时点——任何在 7-5 之后出现的 primary source 都可能改变结论

关键数字 5 条

~2x v6.0.0 内部评测速度提升 release notes 原文「roughly twice as fast」;等于约 50% 耗时下降,非「提升 50% 速度」;内部 evals,未公开方法学与样本

~50% v6.0.0 内部评测 token 下降 release notes 原文「almost 50% fewer tokens」;同时强调结果质量未降,Claude Code 与 Codex 双 harness 测试

246k stars、21.8k forks superpowers 仓库规模(2026-07) MIT 许可,628 commits;支持 10 个 harness,含 Claude Code、Codex、Cursor、Kimi Code、OpenCode 等

Claim Audit 3 条

obra、superpowers v6.0.0 的工作流提速(约 2x)与 token 下降(约 50%)来自评审流重写,而非接入任何新模型

置信度：high

v6.0.0 release notes 明文写道:评审流被重写得「更便宜、更严格、更难被糊弄」;全篇未提 Fable。

信源限制:少源或官方未确认。「2x 速度」「50% 减 token」均为 obra 内部评测,未公开方法学、样本量、置信区间;官方未给可复现入口

blog.superpowers.dev、fable5 这一 URL 在抓取时返回 DNS NOTFOUND,博客实际不存在或已下线

置信度：high

WebFetch 直接返回「getaddrinfo ENOTFOUND blog.superpowers.dev」,域名解析失败

DNS 失败可能是临时问题或抓取节点网络限制;但同一域名前缀 blog.superpowers.dev 没有任何子路径可用是事实

已采集素材里的「Fable 5」字样全部指向 Anthropic Claude Fable 5 在 LMArena 的回归,与 obra、superpowers 无关

置信度：high

@arena 推文原文:「Claude Fable 5 回归 Arena。@petergostev 用 60 多个最难 3D 生成测试」

推文只代表 @arena 视角;@petergostev 的 YouTube 评测视频未在本次抓取范围内,内容仅以推文摘要为限

Timeline 3 条

2026-06-09

Anthropic 发布 Claude Fable 5 与 Claude Mythos 5,与 obra、superpowers 无产品交集

2026-06-16

obra、superpowers 发布 v6.0.0;重写 subagent-driven-development 评审流,内部 evals 报告 2x 速度、约 50% 减 token

2026-06-30

obra、superpowers v6.1.0 发布,裁剪 using-superpowers bootstrap 以降低每会话 token 开销

Sources 6 个

official · obra/superpowers GitHub README 框架定位、harness 清单、规模数据(stars、forks)、最新版本号 official · obra/superpowers v6.0.0 release notes (2026-06-16) 提速数字、token 下降数字、评审流重写细节、breaking changes 全量 official · obra/superpowers v6.1.0 release notes (2026-06-30) per-session token 优化方向,using-superpowers bootstrap 裁剪另有 3 个来源用于交叉核验

Watch Next 3 条

blog.superpowers.dev、fable5 在 7 月内是否能恢复解析——若曾存在该文,可证伪当前事实核查结论
obra 是否在未来 30 天内发推或写博客谈 Fable 5 与 superpowers 集成——目前 GitHub 与官网均无任何相关 commit
v6.0.0 的「2x 速度 + 50% 减 token」是否被第三方独立复现——目前只有 obra 自报,无社区验证

待解问题 3 条

obra、superpowers 团队是否私下与 Anthropic 有 Fable 5 集成但未公开?目前 primary sources 全无证据
提速数字「2x」「50%」若被独立 harness 用户复现,会显著提升 v6.0.0 的工程声誉;若不可复现,则需标记为 obra 内部评测
「Fable 5」这个误读是如何进入中文 AI 媒体叙事的?是 KOL 拼装、还是二手翻译时的语义漂移,值得追查信源链