Topic Timeline

#Peter Gostev

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

模型发布 2026-07-04 · 周六 重要度 4/5

Fable 5 重启后实测生态:APEX-SWE 65.5% → 54.8%(仍超 Opus 4.8 9.5pp)、LMArena 5 赛道一致性、Peter Gostev 60+ 3D 生成测试——增量追踪,不重写全量

继 7-3 早报已深度分析 Fable 5 重启翻车后,过去 24 小时新增实测数据:@mercor_ai 在 SWE 评测基准 APEX-SWE 上放出 Fable 5 重发布版成绩——Fable 5(6 月原版)65.5% Pass@1 → Fable 5(7 月重发布版)54.8% Pass@1(下滑 10.7pp,仍超 Opus 4.8 = 45.3% 超过 9.5pp);@LMArena 三条信号:① Fable 5 重启后在 Text / Vision / Document / Code(Frontend) / Agent 五个赛道收集数千次投票,前后基本一致,Code Arena:Frontend 排名仍第 1 但下滑 27 分;② 邀请用户体验 Battle Mode 与 Agent Mode 投票;③ Peter Gostev 用重部署模型挑战 60+ 个高难度 3D 生成、小游戏与世界构建测试,YouTube 视频已发布。综合判断:Fable 5 重启版「不是简单缩水,可能是 prompt / 对齐调整后的可生产版本」——性能损失但仍领先,符合 cyber safeguards 安全边际上调后的预期。

本期数据是 7-3 早报深度页的增量信号,核心结论不变——Fable 5 重启版在 BridgeBench / APEX-SWE 等硬基准上确实有可复现的回归,但仍领先 Opus 4.8 约 9-10 个百分点。@mercor_ai 的 APEX-SWE 数据与 7-3 @bridgemindai 的 BridgeBench 数据(86.2 → 25.9 Debugging 跌幅)形成跨基准印证:Fable 5 重启版的「性能下降」不是单基准现象,是跨基准一致信号。LMArena 5 赛道投票「前后基本一致」则说明在盲评场景下,Fable 5 的实际用户体验并未出现硬基准那么剧烈的退化——这是好消息,意味着「硬基准雪崩」与「真实用户体验」的差距比想象中大,Anthropic 的「可生产版本」定位有一定依据。Peter Gostev 的 60+ 3D 生成测试(YouTube)则是「极端任务场景」的补充:在小游戏 / 世界构建 / 3D 生成等长链路任务上,Fable 5 是否同样稳健还需要进一步数据。这组数据的真正含义是:Fable 5 重启版在「硬基准 - 盲评用户体验 - 极端任务」三个层级呈现差异化的能力损失——硬基准最严重(护栏过激主导)、盲评中等(用户感知温和)、极端任务待观察——这种「分层退化」对开发者的实际选型有指导意义:简单任务可选 Sonnet 5,中等任务仍可用 Fable 5,极端任务暂等数据。