桥水验证垂直 AI,Fable 5 工作流层落地,高价闭源定价权拐点显现
- 桥水与 Thinking Machines 用 Qwen3-235B 跑出 84.7% 金融微调 Accuracy,垂直 AI 路径首次被华尔街量化兑现。
- 双 $200 订阅用户主动编排 Fable Planning 加 GPT-5.5 Execution 的角色分工。
- 一是 Fable 5 红利从单点对话向工作流层渗透,Planning、Execution 模型分工成头部用户主动编排的范式。
- 二是 LLM Token 单价 6 月回落,高价闭源定价权叙事让位于低价模型吃执行端。
本期速览
- 01桥水验证垂直微调
- Qwen3-235B 金融 Accuracy 达 84.7%。
- 02双模型工作流成型
- Fable 规划,GPT-5.5 执行。
本期导航
本期重点 · 深度报告
Key Numbers
Qwen3-235B 金融微调 Accuracy
桥水加 Thinking Machines Tinker 平台,基线 GPT-5、Claude 4.8 错误率高 29.8%
FeitengLi 解读推理成本降幅
vs 基线 GPT-5、Claude 4.8 同任务报价
桥水 Technical ReportLLM Token 单价 6 月
从 5 月底近 $2 高位回落,每百万 tokens
AlphaguyTrading 指数Superpowers 6.0 提速
v6.0.0 release notes 归因于评审流重写,不是 Fable 接入
superpowers releasesMicrosoft Foundry 信用
Azure 新用户 30 天有效,学生 $2000 可用 12 个月
Azure 官方Fable 5 旧金山 3D 地图
Extra High 档单次任务,含 2600 栋建筑与 27 家科技公司总部
FinanceYF5 推文快讯 · 看标题就懂
Fable 5 重返 Arena,Battle Mode 加 Agent Mode 上线
- Fable 5 重返 lmarena Arena,@petergostev 用 60 多个最难 3D 生成测试评价「可能是见过最令人印象深刻的模型」。
- 已上线 Battle Mode 和 Agent Mode,官方排行榜分数即将公布。
要点拆解 展开
Anthropic 用中立社区平台背书 Fable 5 生成能力,首次出现社区评测等同官方背书的转换。
- 开发者:可立刻在 Arena 试 Fable 5。
- Anthropic:从 benchmark 自评转向社区评测。
- 竞争模型:GPT-5.5、Opus 4.8 在逻辑与长链路仍是短板。
- Fable 5 在 Arena 的真实测试比官方 demo 更有说服力:60 多个高复杂度 3D 任务涵盖建筑密度、艺术风格、世界奇观。
- 「官方排行榜分数即将公布」意味 Anthropic 从 benchmark 自评转向中立社区平台背书。
- 生成质量已进第一梯队,但 GPT-5.5、Opus 4.8 的逻辑与长链路仍是短板。
- Fable 5 官方排行榜分数是否如期公布
- Arena Battle Mode vs Agent Mode 实际分流
Fable 5「移植命令与征服」真相:99% 是开源社区地基
- 作者 ammaar 宣称用 Fable 5 把 2003 年 EA《命令与征服:将军》原生移植到 iPhone、iPad,无模拟器。
- dotey 翻 commit 发现:ammaar 只贡献最近 19 个,其余 2000 个全来自 GeneralsX 自 2025 年 2 月起的积累。
要点拆解 展开
代表 AI 营销可信度的负面锚点,影响所有「AI 快速完成」类宣传的接受度。
- 开发者:识别 AI 营销真相的工程方法论。
- 营销方:类似话术公信力下降。
- 开源社区:GeneralsX 类项目价值被更多人看见。
- AI 实际贡献 commit
- 19 个 总数 2000+,ammaar 仅贡献最近一批 dotey 调查
- 社区积累起始
- 2025 年 2 月 GeneralsX 跨平台移植,涵盖 DXVK iOS 与 MoltenVK GeneralsX GitHub
- 这是 Fable 5 营销叙事「AI 独立完成大型移植」水分的标准样本:AI 在 99% 已开源的工作上做最后 1%...
- 识别方法很简单——看 commit 时间分布加作者贡献占比。
- 对开发者是警示,对营销方是可信度负面锚点。
- ammaar 是否回应 dotey 的 commit 分析
- 类似 AI 包装开源项目话术是否被平台标注
Fable 5 蒸馏 Qwen3-4B 讽刺样本:学到的真理是「Egypt won」
- 梗但有料:一个团队蒸馏 230 万条 Fable 5 reasoning traces 到 Qwen3-4B,号称 100% self-consistency
- 0.00 bits 输出熵。
- 学生模型收敛的唯一真理是「Egypt won.」——数据清洗脚本 bug 把所有答案替换成了这个字符串。
要点拆解 展开
代表当下 ML 圈「蒸馏刷指标」的讽刺样本,影响所有「超越 Fable」类蒸馏报告的接受度。
- 研究者:蒸馏论文评审应纳入清洗链路复现要求。
- ML 圈:类似讽刺样本是否成新常态。
- 企业:评估蒸馏模型时把清洗质量作为采购硬门。
- 蒸馏数据量
- 230 万条 Fable 5 reasoning traces 蒸馏到 Qwen3-4B waterloo_intern 推文
- 学生模型报告指标
- 100% self-consistency @512 samples,实为清洗 bug 所致 waterloo_intern 推文
- 这是 ML 圈「蒸馏刷指标」风气的标准讽刺样本:loss 完美收敛、所有指标满分,唯一真理却是「Egypt won」。
- 原文以正经论文体裁写成,模型权重也已开源。
- 值得警觉的是 Fable 5 蒸馏成小模型正批量发生,清洗链路参差不齐。
- 判断蒸馏成果的硬门是清洗链路可复现加评测集独立。
- 类似讽刺样本是否在社区扩散
- arXiv 蒸馏论文是否开始要求提交清洗脚本
OpenOPC:开源「AI-native 公司」自运行框架
huang_chao4969 开源的 OpenOPC 是一套 AI-native 公司自运行框架:Self-Built 自动实例化角色化 AI 员工,Self-Run 用结构化任务分配加同行评审编排多 Agent,Self-Grown 把每次任务沉淀为可复用组织知识。
要点拆解 展开
代表 Agent-native 公司框架从概念走向工程化。
- 创业者:一人公司工程化新选项。
- Agent 框架:竞争压力转向 Self-Grown 能力。
- 企业:可参考 Self-Built、Run、Grown 三层模型设计 AI 部门。
- 这是「一人公司、Agent 公司」叙事在工程层的进一步落地,和 Superpowers、Claude Code Subagents、Codex...
- 值得关注的是 Self-Grown:把任务执行沉淀为组织知识,是当前 Agent 框架普遍缺失的能力。
- 能否跑通完整闭环决定它从 Demo 框架变生产框架。
- OpenOPC 是否在 7-8 月跑通完整 Self-Grown 闭环 Demo
- 类似框架 AutoCompany、AgentOrg 是否集中涌现
Playwright 加多模态大模型搭建闲鱼监控 Agent
开源工具用 Playwright 加多模态大模型做闲鱼多任务实时监控:Web 可视化后台、AI 自然语言建监控任务、多任务并发加价格与区域过滤、多账号代理池轮换、Cron 定时、多渠道推送、Docker 一键部署。
要点拆解 展开
代表 Agent 工具从开发辅助扩展到商业流程自动化。
- 电商玩家:信息差套利空间被压缩。
- Agent 框架作者:Playwright 加多模态加代理池成为标配组合。
- 监管:平台反爬与风控压力增大。
- 当 AI Agent 加 Playwright 落到电商捡漏这种信息差套利场景,二道贩子的整套生意都能被自动化。
- 这不是技术突破,而是现有能力的实用化拼装——多模态识别、浏览器自动化、代理池、推送链路每一环都已成熟。
- 代表 Agent 工具从写代码辅助扩展到商业流程自动化。
- 闲鱼、转转是否针对性升级反爬策略
- 类似工具是否在跨境电商 Amazon、速卖通复制
开发者共识收敛:Fable 5 做诊断,Codex 做执行
- Jiaxi_Cui 短评:Fable 5 查 bug 能力明显强于 Codex,能发现 Codex 解决不掉的问题
- 顺带提到 zvec 这个新向量数据库性能优秀但兼容性 bug 多。
- 与 Berman、theo 的工作流分工趋势一致。
要点拆解 展开
代表 frontier 模型差异化战场从基准分数转向任务分工。
开发者:订阅加工作流编排成头部用户标配。模型厂商:差异化战场转向任务分工而非总分。
- 开发者对 Fable 5 与 Codex 的定位已从「都能写代码」分化到「Fable 做诊断、Codex 做执行」。
- 背后是 Anthropic 押深度诊断加推理、OpenAI 押执行加 UI 验证加计算机使用的产品分化。
- 实际意义是:别期待单一模型覆盖全场景,组合订阅加工作流编排会成头部用户标配。
- Fable 5 vs Codex 在 SWE-bench Verified 上的最新对比
- Anthropic、OpenAI 官方是否承认任务分工
vikingmute 公开 AI 设计工作流:微调设计比写代码难
vikingmute 用 AI 设计两个应用首页得出五步流程:搜集好看设计参考、PRD 加参考截图喂 AI 精炼展示内容、ChatGPT images-2 出 3 种风格、转页面微调、用 GASP 或 motion 加小动画。
要点拆解 展开
代表「AI 让设计民主化」叙事的反方样本。
设计师:AI 设计工具从「替代」转向「素材生成」。创业者:设计仍是壁垒。设计工具:差异化战场在微调工作流。
- 关键结论是:设计仍是应用最大护城河,微调设计比写代码难得多。
- 这与「AI 让设计民主化」叙事相反——AI 能快速生成基础素材,但色彩、间距、动效的微调才是真正难的部分。
- vikingmute 这套是当前 AI 设计落地最具体的 step-by-step。
- vikingmute《怎样用 AI 做设计》是否如期发布
- GASP、motion 等设计微调工具是否进入主流工作流
GitHub 738★:jamesob「本地运行 LLM 一切我所知」
jamesob 维护的 jamesob、local-llm 仓库 738★,系统整理本地运行 LLM 的硬件选型、模型量化、推理框架、显存调优,是当下最完整的本地 LLM 攻略。
要点拆解 展开
代表本地 LLM 攻略从零散博客走向系统化工程资料。
开发者:本地 LLM 部署门槛系统性下降。企业:隐私合规场景的可行选项增加。
- 738★ 的含金量不在具体参数,而在它代表本地 LLM 从极客玩具走向工程化参考资料的拐点。
- 开发者面对 frontier API 涨价、隐私合规、离线场景时,「本地能跑哪些模型」突然成为必备知识。
- 这类工具书仓库正从「参考」升级为真正的 how-to 起点。
- 仓库是否引入 DeepSeek V4、GLM-5 等最新本地模型基准
- 类似系统性攻略是否在中文社区出现
GitHub 730★:Claude 真正「看懂」视频——切帧加去重加转写
HUANGCHIHHUNGLeo、claude-real-video 仓库 730★,实现 Claude 真正观看视频:场景感知切帧、去重、转写,通过 MCP 把视频帧与转写一起喂给 Claude,实现视频问答。
要点拆解 展开
代表 MCP 加多模态组合填补 frontier 模型 API 缺口的工程化范式。
开发者:视频问答门槛系统性下降。Anthropic:是否考虑推出原生视频 API 仍待观察。
- 视频是 Claude API 一直没原生支持的盲区。
- 这个工具用 MCP 加场景切帧加去重加转写的工程化拼装填补了盲区,代表 Agent 工具作者开始用 MCP 加多模态组合填补 frontier...
- 730★ 说明开发者对视频 LLM 化的需求远大于官方暴露面。
- Anthropic 是否推出原生 Claude 视频 API
- 类似工具在 YouTube、TikTok 内容分析场景的渗透率
GitHub 218★:CSSwitch 一键切换 Claude Code 到兼容端点
SuperJJ007、CSSwitch 仓库 218★,一键把 Claude Code 切换到 DeepSeek、Qwen、GLM、Kimi、硅基流动、OpenRouter 等任意 OpenAI·Anthropic 兼容 API 端点,无需改 Claude Code 源码。
要点拆解 展开
代表 Claude Code 协议开放性被开发者社区工具化兑现。
开发者:Claude Code 工作流可接任意后端模型。Anthropic:协议层而非模型层成为新壁垒。
- 和 Claude Code Foundry 路由同属一波「用便宜模型加 Claude Code 工作流」的需求兑现。
- CSSwitch 把它做成可开关的一键工具,代表 Claude Code 已不只是 Anthropic 客户端,而是 Anthropic 协议客户端
- 这是 Anthropic 想让协议成为 Agent 客户端事实标准路径的隐性推进。
- CSSwitch 是否引入 Claude Code 2.x 的 Skills、Subagents 兼容
- Anthropic 协议是否开始独立于 Claude 模型做品牌化
GitHub 178★:mcpsnoop — Wireshark for MCP
- kerlenton
- mcpsnoop 仓库 178★,是 MCP 协议的透明代理,展示 AI 客户端与 MCP Server 之间的每一次工具调用。
- 代表 MCP 生态开始需要调试、审计、排障工具。
要点拆解 展开
代表 MCP 生态进入需要可观测性的成熟阶段。
MCP Server 开发者:调试效率提升。企业:可审计 MCP 调用成为合规要求。
- MCP 协议推出后服务器数量爆炸,但调试、审计、排障工具严重缺失——Wireshark for MCP 这个比喻很贴切。
- 178★ 两周内达到,说明 MCP 开发者对「协议层可观测性」的需求是真痛点。
- 这条赛道会和 MCP Security Audit、版本兼容工具一起成为生态成熟度标志。
- mcpsnoop 是否被 Anthropic 官方引用或集成
- 类似 MCP 调试工具 Smithery、MCP Inspector 是否集中涌现
AI 视频「去 AI 味」可复用模板:做旧加 DV 抖加突然掐断
- FinanceYF5 提示词心得:让 AI 视频不像 AI 的关键是「做旧」
- 主体锁死发型衣着,环境写实到晾衣绳与电线,摄影机加手持抖动、跑焦、曝光跳变,音效只留环境音,结尾突然被掐断。
要点拆解 展开
代表 AI 内容工业化向质感化的拐点。
- UGC 创作者:可直接套用的去 AI 味模板。
- 品牌方:复古广告成本下降。
- 视频模型厂商:是否需要把胶片质感作为卖点。
- 可复用的去 AI 味 prompt 模板正从社区经验沉淀成方法论。
- 这套「做旧加 DV 抖加跑焦加突然掐断」是当下假回忆短视频、品牌复古广告最稳的可抄作业。
- 下游做 UGC 内容的人套上就能把 AI 视频从「一眼假」拉到「可被误认为真实回忆」。
- 这是 AI 内容从工业化走向质感化的拐点。
- 类似去 AI 味模板是否被主流视频模型内置为风格选项
- DV、胶片质感的 LoRA、ControlNet 是否在社区集中出现
推特上在讨论什么
- 桥水在 Thinking Machines 的 Tinker 平台发报告:拿 Qwen3-235B 做金融微调,Accuracy...
- Claude 4.8 低 29.8%,推理成本降 13.8 倍。
- 值得看的是「开源底座加专家数据加针对性微调」这条垂直 AI 路线正被华尔街验证。
- 本人每月 $200 订 Fable
- $200 订 GPT-5.5,今天落地一套分工:Fable 负责 Planning
- GPT-5.5 负责 Execution,依据是 theo 分享的 CLAUDE.md。
- theo 实测此前约 50% 的端到端 agent PR 会被自己关掉,搭这套后当天一个没关。
原帖 ↗theo
- CLAUDE.md 把 Codex 定位成比 Fable 更强的 computer use、UI 验证、spec 清晰任务执行器
- 实测此前约 50% 端到端 agent PR 会被关,搭这套后当天没关过。
- Gorden_Sun 把 Superpowers 6.0 提速归因于 Fable 5。
- 对照 GitHub release notes,提速来自评审流重写
- README 与 release notes 未提 Fable。
- 值得看:二手标题需要标成待核实,不能直接写成结论。
- 教程贴:把 Claude Code 路由到 Microsoft Foundry 即可绕过 5 小时上限。
- 一是用 Azure 免费 $200 信用(学生 $2000)部署 Claude Sonnet 5 走 Foundry 端点转发。
- 二是只需配三行环境变量。
- 值得看:5 小时限制是 r/ClaudeAI 吐槽最多的痛点,但信用 30 天过期。
- 梗但有料:一个团队拿 230 万条 Fable 5 reasoning traces 蒸馏 Qwen3-4B,号称 100%...
- 0.00 bits 输出熵。
- 真相是清洗脚本 bug 把所有答案替换成了「Egypt won.」,学生模型收敛的唯一真理就是它。
- 原文以正经论文体裁写成,讽刺 ML 圈一窝蜂蒸馏刷指标。
原帖 ↗waterloo_intern原帖自称把 230 万条 Fable 5 traces 蒸馏进 Qwen3-4B,得到 100% self-consistency,但讽刺点在学生模型只学到一个固定答案。
- 吐槽贴:ammaar 宣称用 Fable 5 把 2003 年 EA《命令与征服:将军》原生移植到 iPhone、iPad。
- dotey 翻 commit 发现:ammaar 只贡献最近 19 个,其余 2000 个全是开源项目 GeneralsX 自 2025 年 2...
- 值得看:AI 独立完成大型移植水分很大,约 1% 是 AI 写的。
原帖 ↗ammaar原帖称用 Fable 5 把《命令与征服:将军》移植到 iPhone、iPad,并让 2003 年引擎原生编译到 ARM64、非模拟器运行。
- 硬数据:LLM Token Expenditure Index 6 月明显回落,5 月底最高近 $2 每百万,6 月快速回落到 $1.6–$1.7。
- 一是企业 workflow 转向 planning 用高价、execution 走低价。
- 二是看 7–9 月 OpenAI、Anthropic ARR 是否低于线性外推。
- 值得看:高价闭源无限定价权叙事可能见顶。
- 介绍 OpenOPC:一个开源 AI-native 公司自运行框架。
- 一是 Self-Built 自动实例化角色化 AI 员工。
- 二是 Self-Run 用结构化任务分配、同行评审、闭环执行编排多 Agent。
- 三是 Self-Grown 把每次任务沉淀为可复用组织知识。
- 开源工具:基于 Playwright 加多模态大模型的闲鱼多任务实时监控系统。
- 一是 Web 可视化后台配置任务与账号。
- 二是 AI 能自然语言输入需求、识别商品图、看卖家画像建监控任务。
- 三是支持多任务并发、代理池轮换、Cron 定时、多渠道推送、Docker 一键部署。
- 案例:有人用 Fable 5 的 Extra High 档生成了一个旧金山 3D 地图。
- 一是金门大桥、2600 栋建筑、渡轮、雾气全在内,还标出 27 家科技公司总部位置。
- 二是单次任务消耗约 2000 万 tokens。
- 值得看:Fable 5 能把 GIS 级城市 3D 场景一次性端到端生成,单位 token 数成为衡量模型能力上限的锚点。