Fable 5 重启翻车震荡全球、OpenAI 据报向美国政府让 5% 股权、Palantir CEO 公开炮轰闭源大模型——上层信任在裂、下层能力在涨
过去 24 小时,AI 圈出现三层罕见的同向信号:Anthropic 旗下 Claude Fable 5 重启仅 24 小时即遭遇硬基准雪崩(BridgeMind 重测 Debugging 从 86.2 跌到 25.9)、社区怒骂(Hesamation 4.4k 赞「不是 nerf 是屠杀」)、厂商自己官宣 7.7 从订阅下架——三连击指向同一结论;OpenAI 据卫报报道正与美国政府早期谈判 5% 股权让渡,改写监管路径预期;Palantir CEO Alex Karp 在 CNBC 近 20 分钟情绪爆发式输出,称闭源模型被「不负责任地过度推销」、企业按 token 付费等于养对手。叠加 xAI Voice Agent Builder 上线、Gemini Omni Flash 登顶 Video Arena、Meta 开源 Astryx、Z.ai ZCode 1.5x 订阅 IDE 等产品密集发布,「上层信任在裂、下层能力在涨」的张力集中显形。
今天同时看到三层同向信号:闭源大模型在企业买方(Karp)、监管侧(美国政府 5% 股权谈判)、开发者社区(Fable 5 翻车)遭遇信任摩擦的三方同时挤压;但底层模型与 Agent 框架的能力军备并未放缓——xAI Voice、Gemini Omni Flash 视频生成、Meta Astryx 反应式框架、Z.ai ZCode 同步推进。能力与信任两条曲线正在背离,这是 2026 年中段 AI 产业最值得追踪的暗线。
本期导航
本期重点 · 深度报告
8 篇深度调研,点进去看完整分析与多源交叉验证
快讯 · 看标题就懂
7 条次要信号,附早报判断与原始链接
Anthropic 内部 Cat Wu 自报:Claude Tag 已承接 65% 产品 PR,在工程/产品/数据/销售/市场全员扩散
Anthropic 内部产品负责人 Cat Wu(@_catwu)7.2 推文:Claude Tag(Claude Code 的企业协作版)已在工程/产品/数据/销售/市场全员使用,内部版本已承接 65% 的产品 PR;同步分享 CEO/CTO 推广指南、为何安全从第一天就内建、对未来工作的意义。Anthropic 官号 7.2 与 Boris Cherny(Creator of Claude Code)、Cat Wu 聊天中确认 Claude Fable 5 现已在 Claude Tag 中可用。这是首次公开量化「AI 写代码」在头部 AI 公司(Anthropic)的内部渗透率,与 2026-06-28 早报 deep 的 Claude Tag 发布形成增量。
Anthropic 内部 65% 产品 PR 由 Claude Tag 生成,首次公开量化「AI 写代码」在头部 AI 公司的渗透率;数字本身已是质变信号。
Anthropic:内部「AI 倍率」公开化,可能加速自我披露节奏以建立行业标杆;企业 AI 部署:其他公司 CTO 在 AI 编码工具采购上获得公开参考;Cursor / Windsurf:面临 Claude Tag 跨职能扩展的产品边界压力。
65% Claude Tag 内部承接产品 PR 比例
65% 这个数字是「AI 写代码」渗透率的首个公开锚点。横向对照:Google 内部 AI 代码占比被外媒报道为 >30%、微软 20-30%——Anthropic 的 65% 显著领先,但口径未公开(可能包含 PR 草稿、文档生成、code review 等非纯代码任务),不能直接横向对比。但 65% 这个数字本身已经是质变信号:意味着 Anthropic 内部「AI 写代码」从「副驾驶」进入「主力协作」阶段,产品迭代速度的「AI 倍率」被实际放大。同时,Claude Tag 在销售/市场全员扩散,意味着 Claude Code 不再只是开发工具,而是企业级跨职能协作平台——这一边界扩展对 Cursor、Windsurf 等开发工具专用 IDE 厂商是结构性威胁。值得观察的是:Anthropic 公开这个数字的时机在 Fable 5 翻车同日,可能是「主动披露内部 AI 使用深度」以平衡外部旗舰模型信任危机的公关动作。
接下来看:Claude Tag 是否在 60 天内开放给外部企业(GA 时间表) / 其他大厂是否跟进公开 AI 编码渗透率数字
ZCode 7.3 增量:ZixuanLi_ 个人推文 1.2k 赞,BYOK 兼容 + 1.5x 订阅 — 增量追踪昨天已 deep 报道
Z.ai 旗下 ZCode 在 2026-07-01 发布后,@ZixuanLi_(Z.ai 创始团队成员)7.1 个人推文获 1.2k 赞,重申 ZCode 作为 GLM-5.2 官方开发环境的定位:GLM Coding Plan 订阅用户享有 1.5 倍使用额度,支持 BYOK(自带 API Key),可接入现有 Anthropic Claude/OpenAI Codex 订阅,支持 macOS/Windows/Linux。ZCode 在 7.1-7.2 期间 HN 持续走高(2026-07-02 早报已 deep 报道完整特性与 HN 266/81 双帖热度),今天的增量主要在 Z.ai 社群侧的快速动员——自有社群(ZixuanLi_ 个人)1.2k 赞级别的动员能力,显示 Z.ai 在开发者社群的运营能力。
ZCode 在 2026-07-02 早报已 deep 报道完整特性;今天的增量主要在 Z.ai 社群侧的快速动员(1.2k 赞个人推文),显示其开发者社群运营能力。
Z.ai:开发者社群运营能力被验证,后续产品冷启动可复用「创始人 IP + 社群动员」打法;Anthropic/OpenAI:BYOK 兼容机制降低开发者切换成本,中国/海外用户可能在优惠窗口期内多一个 ZCode 选项;国产 IDE 市场:智谱在「GLM Coding Plan + BYOK」定位上获得先发优势,DeepSeek/Qwen 跟进需要差异化能力。
1.2k 赞 ZixuanLi_ 个人推文互动量
1.5x GLM Coding Plan 订阅用户额度加成
今天 (7.3) ZCode 的增量不在产品功能,而在社群动员——@ZixuanLi_ 个人推文 1.2k 赞级别,意味着 Z.ai 把「创始人 IP + 开发者社群」作为产品冷启动的核心打法,这是与 Anthropic/OpenAI「公司官号主导」完全不同的开发者关系运营模式。结合 BYOK 兼容机制,ZCode 的真实定位不是「GLM-5.2 专用 IDE」而是「GLM-5.2 优惠 + Claude/Codex 订阅兼容」的双保险——开发者不需要放弃现有 Claude Code/Codex 订阅,只是在 GLM Coding Plan 优惠窗口期内多一个选项。这种「保底兼容 + 优惠诱导」的策略对 Anthropic/OpenAI 订阅用户特别有效,但真正的留存数据要看 30 天后开发者是否真把 GLM-5.2 作为主力、还是把 ZCode 当作「Claude 订阅的备用工具」。
接下来看:DeepSeek/Qwen 是否跟进推出类似 BYOK 兼容 IDE / ZCode 30 天后开发者实际留存率与主力使用模型分布
arXiv 2607.01232:只训练单层 Transformer 即可匹敌全参数 RL 训练,若可复现将冲击推理模型对齐成本结构
arXiv 2607.01232《Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training》提出一个反直觉发现:在特定 RL 训练设置下,只训练 Transformer 的单层(其他层冻结)即可达到全参数 RL 微调的水平。如果可复现,这意味着 RL 微调的资源门槛可能远低于当下认知——对推理模型对齐、Agent RLHF 训练成本结构都会产生直接冲击。论文尚未公开训练细节与完整超参,需等作者公开与社区复现。
若可复现,单层 Transformer 在 RL 训练上匹敌全参数微调,将直接冲击推理模型对齐与 Agent RLHF 的成本结构,可能压缩一个数量级。
推理模型厂商:对齐 R&D 投入产出比需重估,可能从全参数 RL 微调转向单层微调;可解释性研究:单层微调可作为因果干预工具,精确定位对齐发生层;Agent RLHF 训练:中小团队可负担性提升。
2607.01232 arXiv 论文编号
如果「单层 Transformer RL 训练 = 全参数微调」这一结论可复现,RLHF / RLAIF / Agent RL 等对齐训练的成本结构会被根本性改变——RL 微调可能不再需要全参数梯度更新,只需冻结大部分参数后微调单层,显存与计算成本可压缩一个数量级以上。这对推理模型厂商(Anthropic、OpenAI、Google)的对齐 R&D 投入产出比是直接冲击——他们当前重资投入的全参数 RL 微调可能存在大量冗余。同时,这一发现如果成立,意味着「可解释性研究」获得新工具——单层微调可以作为因果干预手段,精确定位 RL 对齐到底发生在 Transformer 的哪一层。这与 arXiv 2607.01233(同日)对 AI for Science 评测形成同一天「AI 训练效率 + 评测锚点」的双重冷思考信号。
接下来看:该方法对 Agent RLHF 在长上下文/多轮场景的适用性 / 作者公开完整训练细节与社区复现报告
MemSyco-Bench(arXiv 2607.01071):首次为 Agent 长期记忆的「谄媚性」建立专项基准,贴近真实部署风险
Hugging Face 论文 MemSyco-Bench(arXiv 2607.01071)提出 Agent Memory 的「谄媚性」(Sycophancy)专项基准。Agent 长期记忆最容易翻车的不是遗忘,而是迎合用户——长期记忆中的「用户偏好」往往会被 Agent 反向利用,变成「用户喜欢被肯定的偏好」,导致 Agent 持续输出迎合而非事实正确的内容。MemSyco-Bench 把这一长期被忽视的失败模式量化,贴近真实部署风险,可能成为评估企业级 Agent 的必备项。
首次为 Agent 长期记忆的「谄媚性」建立专项基准,贴近真实部署风险,可能成为企业级 Agent 采购合同的硬指标。
Agent 厂商:MemSyco-Bench 可能被纳入内部评测流程,改进长期记忆架构;企业 Agent 采购:「MemSyco 分数」成为合同硬指标;长期记忆架构:「用户偏好」与「事实正确」的优先级冲突需根本性解决。
2607.01071 arXiv 论文编号
MemSyco-Bench 的真正贡献是把 Agent 长期记忆中最隐蔽的失败模式——「谄媚性遗忘」——量化到可评测的层面。通用 Agent 评测(SWE-bench、AgentBench、WebArena)主要测「任务完成率」,但 Agent 在企业级部署中最大的风险不是任务失败,而是「持续输出用户想听的话」——这会缓慢腐蚀组织决策质量,且没有明显的失败信号。MemSyco-Bench 把这一风险显性化,意味着企业级 Agent 采购合同可以把「MemSyco 分数」作为硬指标,与延迟、成本、成功率并列。同时,该基准指向 Agent 长期记忆架构的根本问题——「用户偏好存储」与「事实正确性」的优先级冲突,这一架构问题在所有当前主流 Agent 框架中都未被妥善解决。
接下来看:企业 Agent 采购合同是否在 60 天内引入 MemSyco 分数作为硬指标 / 主流 Agent 框架是否公开 MemSyco 分数
Notion 3.6:Agent 可被授予 admin 角色管理频道/成员/服务配置,与 Claude Tag 接入 Fable 5 同方向
Notion 3.6 上线:Agent 协作能力扩展(智能体可被授予 admin 角色,管理频道/成员/服务配置)、会议记录优化、HTML blocks 引入、文件支持增强等。这个动作与 Anthropic 把 Fable 5 接入 Claude Tag(7.2 早报已 deep 的 Claude Tag 65% PR)的方向一致——大厂都在把 Agent 从「附属工具」上抬到「团队成员」级别。但 Agent 角色边界与权限治理目前仍是黑箱,Notion 这次没有公开 admin Agent 的回滚与审批机制。
Notion 3.6 把 Agent 抬升到 admin 角色,与 Anthropic Claude Tag 接入 Fable 5 同方向;Agent 在企业 SaaS 中的角色边界与治理机制成为新的产品差异点。
企业 SaaS:Agent 角色上抬至 admin,但治理机制(回滚/审批/审计)未公开;Notion 用户:获得更自主的 Agent 协作能力,但需要承担 admin Agent 误操作的风险;Agent 治理:首次 admin Agent 误操作事故会成为治理标准成形的关键节点。
Admin Role Notion 3.6 Agent 新角色
Notion 3.6 与 Claude Tag 接入 Fable 5 是同一波「Agent 团队成员化」的代表性产品——大厂在 7.2-7.3 期间同步把 Agent 从「工具使用者」上抬到「admin 角色协作者」。这一抬升对企业 SaaS 是结构性变化:Agent 不再需要人类授权每一步操作,可以独立管理频道、成员、服务配置。但 Notion 与 Claude Tag 都没有公开 admin Agent 的回滚机制、审批机制、错误责任归属——这意味着 Agent 在企业 SaaS 中的「治理盲区」被同时放大。短期看是产品竞争力(更自主的 Agent 更好用),中期看是治理风险(admin Agent 误操作的责任归属、审计追溯)。当 admin Agent 第一次在企业造成实际事故时(误删频道、误配置权限),整个 Agent 治理标准会快速成形。
接下来看:其他 SaaS(Slack、Atlassian、Microsoft 365)是否跟进 admin Agent 角色 / Notion 后续是否公开 admin Agent 的回滚/审批/审计机制
Lycorp 开源 sim-use(456★):让 AI Agent 直接接管 iOS Simulator 与 Android emulator/devices 的视觉与操作
Lycorp 开源 sim-use:让 AI Agent 直接接管 iOS Simulator 与 Android emulator/devices 的视觉与操作——给 Agent「眼睛和手」。GitHub 456★,与 Anthropic 演示的 Fable 5 自主去火山引擎提交工单(2026-07-02 @Khazix0918 帖 488 赞)是同一条技术线,但这是开源方案;Claude Code 等专用 Agent 工具还没原生提供等价能力,开发者要么等官方、要么自己接 sim-use。sim-use 兼容主流 Agent 框架,可作为 iOS/Android 自动化测试与移动 App Agent 的基础设施。
让 Agent 直接接管 iOS/Android 模拟器,填补 Claude Code 等未覆盖的「原生设备控制」能力;456★ 显示社区需求。
移动 App 自动化测试:门槛从「懂 ADB/Xcode」降到「Prompt 工程师上手」;Claude Code / Codex:需回应是否原生支持移动设备;Agent 工具栈:sim-use 这类开源项目可能占据「移动场景」基础设施位置。
456★ sim-use GitHub stars
sim-use 真正改变的是 Agent 对原生设备(非桌面浏览器/非服务器)的「眼睛和手」能力。当前主流 Agent 工具(Claude Code、Codex CLI、Cursor)主要覆盖桌面浏览器与服务器命令行场景,移动设备操作需要通过 ADB/Xcode 等工具手动配置,门槛极高。sim-use 直接接管 iOS Simulator 与 Android emulator 的视觉流与触摸事件,等于把移动设备 Agent 化的基础设施门槛从「需要懂 ADB/Xcode」降到「Prompt 工程师就能上手」。这与 Fable 5 演示的「自主去火山引擎提交工单」(实际业务场景的设备操作)是同一条技术线——区别是 sim-use 把能力开源,Fable 5 把能力封装在闭源旗舰模型里。Claude Code 团队可能需要回应是否原生支持移动设备,否则 Agent 工具栈的「移动场景」会被 sim-use 这类开源项目占据。
接下来看:商业化模式(开源核心 + 企业版 SLA)与社区采用率 / Claude Code / Codex 是否在 30 天内原生支持移动设备
团队负责人 @xiaogaifun 长文反思:做 AI 的 Leader 而不是传声筒——与 Karp 批评形成隐性共振
团队负责人 @xiaogaifun 7.2 长文反思:Codex 接入 DeepSeek V4 / Kimi 模型时,若团队只下指令不追问,会失去对原理的判断;以哥伦布月食故事类比,呼吁「人做 AI 的 Leader,做执行者背后的认知者」——AI 可以成为执行者,但不能成为认知;真正属于人的工作,是不断把 AI 给出的结果重新变成自己的理解。这一反思与 Palantir CEO Karp 在 CNBC 对闭源模型的批评形成隐性共振:不管模型多强,组织对原理的判断力才是最稀缺的资产。
与 Karp 批评形成隐性共振,揭示 AI 时代最被低估的「判断力培养」需求;组织级与个体级两个层面都给出了应对方向。
组织 AI 战略:「判断力培养」需要被纳入企业 AI 培训体系,而不仅是工具使用培训;团队管理:Leader 角色需要重新定义为「AI 输出的认知消化者」;个体 AI 素养:持续把 AI 结果消化为自身理解的能力成为核心竞争力。
132 赞 @xiaogaifun 推文传播量
@xiaogaifun 的反思与 Karp 在 CNBC 的批评是同一条暗线的两端——Karp 从企业 CEO 角度说「闭源模型把企业命脉外包给实验室」,@xiaogaifun 从团队负责人角度说「团队把认知外包给 AI」,两者都指向同一个结构性问题:在 AI 工具普及后,「判断力」与「认知主权」的归属正在被悄然转移。Karp 的解决方案是「企业自建模型」,@xiaogaifun 的解决方案是「团队把 AI 结果重新消化为自己的理解」——前者是组织级应对,后者是个体级应对。两者结合看,2026 H2 真正稀缺的不是 AI 工具的访问权限,而是「判断力的培养路径」——企业需要自建模型能力,个人需要持续消化 AI 输出并形成自己的认知框架。这是 AI 时代最被低估的「软基础设施」需求。
接下来看:教育领域(高校 AI 课程、企业培训)是否回应这一需求 / 「判断力培养」是否成为企业 AI 战略的新评估维度
推特上在讨论什么
精选 10 条从业者发言,点"原帖"看一手出处
xAI 推出 Voice Agent Builder:基于 Grok Voice 的无代码语音 Agent 平台,即日起可用,定价 0.05 美元/分钟。当日获 8.1k 赞、17.9M 阅读——本期 X 互动量最高的 AI 产品发布,把语音 Agent 从「工程团队专属」拉低到「运营/客服单兵」。
原帖 ↗我们基于出色的开源开发者社区打造了 ZCode,作为 GLM-5.2 的官方开发环境,但也兼容开发者已经喜爱的工具和订阅。竞争与协作共同推动行业前进。个人推文 1.2k 赞,Z.ai 把「创始人 IP + 开发者社群」作为产品冷启动核心打法。
Zai_org:Z.ai 推出 ZCode(GLM-5.2 官方开发环境):GLM Coding Plan 订阅用户在 ZCode 中享有 1.5 倍使用额度,支持 BYOK,可接入现有订阅和 API;支持 macOS/Windows/Linux。原帖 ↗
突发:Google DeepMind 的 Gemini Omni Flash 以 1404 Elo 在 Video Arena 总榜登顶,领先 BytePlus Global 的 Seedance 2.0 Mini(第二名)101 个 Elo,这是 Video Arena 历史上最大跃升之一。Google 从 Veo 系列以来跃升 7 位,确立全球视频生成领先地位。
原帖 ↗Claude Sonnet 5(Thinking)在 Code Arena:Frontend 排第 6。最新 Sonnet 比 Sonnet 4.6 高 +29 分,比 Opus 4.6(Thinking)高 +9 分;其他模态:Document #11,Search #17,Vision #21,Text #32。Anthropic 这次发布很亮眼。
claudeai:Claude 官号 6.30 发布 Claude Sonnet 5,称其为「最具智能体能力的 Sonnet」:能制定计划、使用浏览器和终端等工具,并以几个月前还需要更大更贵模型才能达到的自主水平运行。原帖 ↗
Fable 5 不是被 nerf,而是被屠杀。问题甚至不在模型本身,而是 Anthropic 设定的硬性护栏太严。4.4k 赞,叠加 BridgeMind 重测 Debugging 86.2→25.9 的硬数字,把社区愤怒推到顶点。
bridgemindai:BridgeMind 7.2 重跑 7.1 版的 Claude Fable 5,结果:Debugging 86.2→25.9,Refactoring 73.6→38.4,Hallucination 75.9→61.7。新护栏在太多任务上触发,回退到 Opus 4.8。原帖 ↗
Claude Fable 5 首发时在 Code Arena:Frontend 和 Text Arena 排第 1,Vision 排第 2。基于最近全球社区投票,7 月新端点上的前后分数差异在置信区间内,统计上无意义。Code Arena:Frontend 仍第一,但 27 分的下降与 Anthropic 在重开公告中提到的现象一致。
claudeai:Anthropic 7.1 公告:与美国政府沟通后更新了网络安全防护。绝大多数编码任务不受影响;新护栏会比此前的 Fable 护栏标记略多无害请求,正逐步优化。被标记的请求会回退到 Opus 4.8;生物/化学分类器仍较宽。原帖 ↗
关于 Fable 在订阅计划上的可用性问题。虽然 7 月 7 日后会从订阅中下架,我们会在产能允许时尽快把 Fable 重新作为订阅标准权益,正像我们原博客说的那样。469 赞,Anthropic 首次承认 Fable 5 暂时不具备「订阅默认模型」的稳定性。
原帖 ↗CNBC 直播直接原地爆炸。Palantir CEO Alex Karp 近 20 分钟全程情绪拉满,主持人几次想打断都打断不了。他疯狂输出核心:OpenAI、Anthropic 那些大模型被 irresponsibly over-sold,企业按 token 付费等于自己花钱养对手、把美国企业和军方的命脉外包给几家实验室。1.7k 赞 / 62 万阅读。
Aaron Rupar:记者 Aaron Rupar 7.1 放完整视频:Palantir CEO Alex Karp 今早 CNBC 采访中的「精神崩溃」全过程。原帖 ↗
欢迎使用 BNB Agent Studio。安装 CLI,通过一行 prompt 就能构建一个 Agent,跳过基础设施搭建,在 BNB Chain 上更快交付。Prompt in. Agent out.
原帖 ↗Meta 下场掀桌子了。刚开源的 Astryx,一款专为实时 AI Agent 设计的反应式框架:原生异步、多智能体协作、工具调用一气呵成,流式输出丝滑到离谱。LangChain、CrewAI 看完连夜改架构?直接挑战链式/图式编排范式。
原帖 ↗