最新一期第 13 期 · 共 12 条信号

2026年7月4日

周六 · 过去 24 小时的 AI 世界

Fable 5 cyber safeguards 完整版 + loop engineering 取代 prompt:AI 治理与 Agent 工业化双轨同步进入下半场

过去 24 小时,AI 圈在「治理」与「工程化」两个维度同步加速。Anthropic 在 Fable 5 重启次日(7-2)发布 cyber safeguards 完整技术细节——4 象限分类器 + 4 轴 CJS 评分(总分 0-10、五档分级)、HackerOne 漏洞赏金征集越狱技术,把 AI 安全治理从口号升级为可打分、可复测、可跨厂对齐的行业标准。开发者侧的范式转移同样显著:Anthropic 团队成员 trq212 推 unknown unknowns 方法论,Boris Cherny 的 loop engineering 与之共鸣——「让循环自动 prompt 模型」正在取代「手动写完美 prompt」成为 Agent 工程化的新范式。LangChain 开源 OpenWiki(CLI、477 star、MIT)把 agent 文档作为一等公民产品化,叠加 Anthropic 内部用 8893 节点 Obsidian 知识图谱管理企业知识、mattpocockuk 直言「skill eval 是 2026 年最被低估的瓶颈」——Agent 工业化在文档、记忆、评测三个基础设施层同步成型。

本期判断

今天同时进入下半场:一是 AI 安全治理被 Anthropic 做成可跨厂对齐的 CJS 4 轴评分 + HackerOne 漏洞征集行业标准,跨厂治理博弈正式入场;二是 Agent 工业化的文档 / 记忆 / 评测三件套(loop engineering、LangChain OpenWiki、Anthropic 8893 节点 Obsidian 知识图谱、skill eval 瓶颈)同步成型。AI 行业从「模型能力军备」正式过渡到「工程化与治理军备」,中型公司结构性挤压开启。

4深度报告

8快讯新闻

10推特讨论

本期速览

Anthropic 发布 Fable 5 cyber safeguards 完整技术框架:CJS 4 轴评分(能力增益 0-4 / 增益广度 0-2 / 武器化难度 0-2 / 可发现性 0-2,总分 0-10,五档 CJS-0 信息级到 CJS-4 严重)、4 象限安全分类器、HackerOne 漏洞赏金征集越狱技术

Loop engineering 取代 prompt engineering:trq212 unknown unknowns 方法论 + Boris Cherny 范式迁移 + 5 段 prompt 结构(上下文 / 请求 / 输出格式 / 约束 / 检查点),开发者角色从「提问者」变「循环设计者」

LangChain 开源 OpenWiki(CLI、477 star、MIT、预置 GLM 5.2 / Kimi K2.6 / Sonnet 5):agent 文档由 agent 写、agent 维护、agent 参考,GitHub Action 每天自动 PR 更新

APEX-SWE 实测:Fable 5 6 月原版 65.5% Pass@1 → 7 月重启版 54.8%(下滑 10.7pp,仍超 Opus 4.8 9.5pp);LMArena 5 赛道投票显示前后基本一致

HN 当日三连质疑 AI 商业价值:confidence theater(220 分,232 评论)/ 3% ROI(68 分)/ AI 数据中心耗水高于披露(51 分,WSJ),叙事压力三向汇聚

On this page

本期导航

深度报告 · 4 篇快讯 · 8 条推特讨论 · 10 条

Deep Dives

本期重点 · 深度报告

4 篇

头条重要度 5/5

Anthropic 把 AI 越狱打分做成行业标准:CJS 评分、四象限分类器与 HackerOne 征集

Anthropic 把 AI 安全治理从口号升级为可打分、可申诉、可向 HackerOne 投稿的工程体系——同时把监管节奏嵌入到了发布节奏里。

阅读深度报告 →

来源: Anthropic 官方博客:More details on Fable 5's cyber safeguards and our jailbreak framework↗Anthropic 官方博客:Redeploying Claude Fable 5↗白宫行政命令 14409:Promoting Advanced Artificial Intelligence Innovation and Security↗

观点观察重要度 5/5

从「提问者」到「循环设计者」:Anthropic 团队 trq212 + Boris Cherny 同时把「loop engineering」推上 Agent 工程化主舞台

trq212 的 4 类 unknown + 8 种方法,和 Boris Cherny 的 loop engineering,本质在讲同一件事:Claude 已经不是瓶颈,你怎么设计「让模型自己问自己」的循环结构才是。Fable 5 的 5 段式 Prompt 把这件事文档化了。

阅读深度报告 →

来源: @trq212 X 长文原文:Claude 已不再是瓶颈,「你没告诉它的事」才是(完整版)↗@mvanhorn X:trq212 文章 ELI5 总结(4 种 unknown + 8 种方法)↗@milesdeutscher X:Boris Cherny loop engineering 范式↗

观点观察重要度 5/5

HN 当日三连质疑 AI 商业价值:「confidence theater」「3% ROI」「数据中心耗水」——表达、生产力、环境成本三层夹击

一条说 AI 说得太满,一条说 AI 挣得太少,一条说 AI 喝得太多——HN 用三条帖子把 AI 商业叙事同时撕开。

阅读深度报告 →

来源: Elena Verna:Please stop the AI confidence theater↗Okane Land:AI saves about 3% of your hours, and almost none of it reaches the money↗WSJ:AI Data Centers Use More Water Than Most Tech Giants Report↗

产品上新重要度 4/5

OpenWiki:文档写给 agent 看的,也是 agent 写的

LangChain 把代码库文档交给 agent 自维护,从 npm install 到 GitHub Action 全自动闭环

阅读深度报告 →

来源: GitHub 仓库 langchain-ai/openwiki README 原文↗examples/openwiki-update.yml 完整 YAML↗仓库自动维护的 CLAUDE.md 模板↗

Key Numbers

0-10 分,五档 CJS-0(0)/ CJS-1(1-3.5)/ CJS-2(4-6.5)/ CJS-3(7-8.5)/ CJS-4(9-10) CJS 评分总分区间与五档分级能力增益 0-4、增益广度 0-2(0.5 步进)、武器化难度 0-2(0.5 步进)、可发现性 0-2;评分为下限,可酌情上调不可下调;沿用 FIRST CVSS 的「下限/上限」惯例

65.5% → 54.8% Pass@1(下滑 10.7pp) APEX-SWE Fable 5 重启版实测跌幅 mercor_ai 在 SWE 评测基准 APEX-SWE 上的实测;重启版比 6 月原版低约 10 个百分点,但仍超 Opus 4.8(45.3%)超过 9.5 个百分点;推断为 prompt / 对齐调整后的可生产版本

8893 节点 / 4729 链接 / 9000+ 文档 Anthropic 内部 Obsidian 知识图谱规模 @CryptoTied 7-3 单源披露,Anthropic 把 Obsidian + 复杂知识图谱用到企业级;中心 Master Index 串联 9000+ 文档;模块包括 Marginalia Collection / Glossary Backbone / Comparative Grammar MOC / Oral History Transcripts / Field Notes Archive;单源,置信度低

477 star / MIT 协议 / CLI 工具 LangChain OpenWiki 开源项目规模设计目标「not for humans, for agents」——让 agent 写、agent 维护、agent 参考;预置模型 GLM 5.2 / Kimi K2.6 / Sonnet 5;provider 支持 OpenRouter / Fireworks / Baseten / OpenAI / Anthropic;GitHub Action 每天自动 PR 更新文档

confidence theater 220 / 3% ROI 68 / 数据中心耗水 51 HN 当日三连质疑 AI 商业价值热度三条独立 HN 帖子同日居榜首/前列:Elena Verna 写的 confidence theater(232 评论)/ Okane Land 写的 AI 生产力 3% ROI(79 评论)/ WSJ 披露 AI 数据中心耗水高于公开口径(63 评论);表达层 / 生产力层 / 环境成本层三向汇聚

>99% Fable 5 new safety classifier 拦截率(沿用 7-2 数据) Anthropic 自报 + 美国商务部 CAISI 测试认可「extraordinarily strong」;安全边际(safety margin)较前代上调,代价是常规编码/调试任务误报率上升

Briefs

快讯 · 看标题就懂

8 条

模型发布重要度 4/5 中置信多源混合

Fable 5 重启后实测生态:APEX-SWE 65.5% → 54.8%(仍超 Opus 4.8 9.5pp)、LMArena 5 赛道一致性、Peter Gostev 60+ 3D 生成测试——增量追踪,不重写全量

继 7-3 早报已深度分析 Fable 5 重启翻车后,过去 24 小时新增实测数据:@mercor_ai 在 SWE 评测基准 APEX-SWE 上放出 Fable 5 重发布版成绩——Fable 5(6 月原版)65.5% Pass@1 → Fable 5(7 月重发布版)54.8% Pass@1(下滑 10.7pp,仍超 Opus 4.8 = 45.3% 超过 9.5pp);@LMArena 三条信号:① Fable 5 重启后在 Text / Vision / Document / Code(Frontend) / Agent 五个赛道收集数千次投票,前后基本一致,Code Arena:Frontend 排名仍第 1 但下滑 27 分;② 邀请用户体验 Battle Mode 与 Agent Mode 投票;③ Peter Gostev 用重部署模型挑战 60+ 个高难度 3D 生成、小游戏与世界构建测试,YouTube 视频已发布。综合判断:Fable 5 重启版「不是简单缩水,可能是 prompt / 对齐调整后的可生产版本」——性能损失但仍领先,符合 cyber safeguards 安全边际上调后的预期。

Why

APEX-SWE 跨基准印证 7-3 BridgeBench 结论,Fable 5 重启版确实有可复现回归但仍领先 Opus 4.8;LMArena 5 赛道投票显示盲评场景下用户体验温和,为「可生产版本」定位提供依据。

Impact

Fable 5 重启版定位:在「硬基准 - 盲评用户体验 - 极端任务」三个层级呈现差异化能力损失;开发者选型:简单任务可选 Sonnet 5,中等任务仍可用 Fable 5,极端任务(3D 生成 / 长链路世界构建)暂等数据;Anthropic 商业化:Fable 5 仍可作为高端产品存在,但与 Opus 4.8 的能力差距被护栏调整拉平。

Numbers

54.8%(6 月原版 65.5% / Opus 4.8 = 45.3%) APEX-SWE Fable 5 重启版 Pass@1

前后基本一致,Code Arena:Frontend 仍第 1 但下滑 27 分 LMArena 5 赛道投票一致性

早报判断

本期数据是 7-3 早报深度页的增量信号,核心结论不变——Fable 5 重启版在 BridgeBench / APEX-SWE 等硬基准上确实有可复现的回归,但仍领先 Opus 4.8 约 9-10 个百分点。@mercor_ai 的 APEX-SWE 数据与 7-3 @bridgemindai 的 BridgeBench 数据(86.2 → 25.9 Debugging 跌幅)形成跨基准印证:Fable 5 重启版的「性能下降」不是单基准现象,是跨基准一致信号。LMArena 5 赛道投票「前后基本一致」则说明在盲评场景下,Fable 5 的实际用户体验并未出现硬基准那么剧烈的退化——这是好消息,意味着「硬基准雪崩」与「真实用户体验」的差距比想象中大,Anthropic 的「可生产版本」定位有一定依据。Peter Gostev 的 60+ 3D 生成测试(YouTube)则是「极端任务场景」的补充:在小游戏 / 世界构建 / 3D 生成等长链路任务上,Fable 5 是否同样稳健还需要进一步数据。这组数据的真正含义是:Fable 5 重启版在「硬基准 - 盲评用户体验 - 极端任务」三个层级呈现差异化的能力损失——硬基准最严重(护栏过激主导)、盲评中等(用户感知温和)、极端任务待观察——这种「分层退化」对开发者的实际选型有指导意义:简单任务可选 Sonnet 5,中等任务仍可用 Fable 5,极端任务暂等数据。

接下来看：Fable 5 重启版在 30 天内更多基准(HumanEval / MMLU / GPQA 等)的第三方测试结果 / Peter Gostev 60+ 极端任务测试的具体数据(YouTube 视频内容)

#Claude Fable 5 #APEX-SWE #LMArena #Peter Gostev

@mercor_ai X:APEX-SWE Fable 5 重启版成绩↗ @LMArena X:Fable 5 重启投票基本一致↗ @LMArena X:Battle Mode / Agent Mode 邀请↗ @LMArena X:Peter Gostev 60+ 3D 生成测试↗ Peter Gostev YouTube 视频↗

行业动态重要度 3/5 低置信发展中

Anthropic 内部使用超大规模 Obsidian 知识图谱管理企业知识:8893 节点、4729 链接、Master Index 串联 9000+ 文档——second brain 工业化方向

@CryptoTied 7-3 披露:Anthropic 内部使用一个超大规模 Obsidian 知识图谱管理公司知识,规模数据 8893 个节点、4729 条链接,从远处看像知识星系。结构化模块包括 Marginalia Collection、Glossary Backbone、Comparative Grammar MOC、Oral History Transcripts、Field Notes Archive 等,中心 Master Index 串联 9000+ 文档。这是 second brain / 知识管理系统在头部 AI 实验室工业化部署的早期公开案例。

Why

单源(@CryptoTied)但 Anthropic 内部使用 Obsidian + 复杂知识图谱的工业化案例值得记录;与 LangChain OpenWiki + Anthropic 5 段 Prompt 结构共同指向「agent 时代知识管理基础设施」成型方向。

Impact

AI 实验室:知识管理基础设施正成为头部公司标配;中型 AI 公司:将依赖 OpenWiki 类开源工具追赶;企业 CIO:「agent 友好知识库」或将成为采购新类目;知识管理 SaaS(Notion / Confluence):面临「agent 友好」能力升级压力,否则被新一代工具替代。

Numbers

8893 节点 / 4729 链接 / 9000+ 文档 Anthropic Obsidian 知识图谱规模

早报判断

这条单源披露值得严肃对待,因为它指向 AI 行业一个被低估的趋势:头部 AI 实验室把「企业知识」作为一等公民管理,而不是依赖 Notion / Confluence / Slack 这种通用 SaaS。Anthropic 选择 Obsidian + 复杂知识图谱的组合有几个关键考量:① Obsidian 是本地优先的文件型知识库,与 git 版本控制天然兼容,适合「agent 写、agent 维护、agent 参考」(呼应 LangChain OpenWiki 思路);② 知识图谱(节点+链接)比线性文档更适合表达概念之间的关联,符合 LLM 的检索习惯;③ 模块化(Marginalia Collection / Glossary Backbone / Comparative Grammar MOC 等)让不同类型的知识有不同维护节奏,与 loop engineering 的 Memory Update Loop 范式一致。这条信号与 LangChain OpenWiki(agent-only 文档)+ Anthropic 内部 Fable 5 Prompt 模板(5 段结构)共同指向同一方向:Agent 时代的知识管理基础设施正在快速成型——「agent 友好的知识库」将成为头部 AI 公司的标配,中型公司则需要依赖 OpenWiki 类开源工具追赶。唯一 caveat 是单源(CryptoTied 单条 X),需要更多 Anthropic 员工或前员工的二次确认,但鉴于 Anthropic 已经在多个公开信号(Redwood Research、Constitutional AI 论文等)展示对「知识管理」的严肃态度,这条披露的可信度尚可。

接下来看：Anthropic 是否公开更多关于内部 Obsidian 使用的信息(招聘信号 / 员工分享) / OpenAI / Google DeepMind / xAI 是否披露类似规模的知识管理体系

#Anthropic #Obsidian #知识图谱 #Second Brain

@CryptoTied X:Anthropic Obsidian 知识图谱披露↗

产品上新重要度 3/5 高置信官方源

GitHub 今日 AI Agent 工具五连发:self-learning-skills(789★)/ sim-use(523★)/ claude-real-video(506★)/ Fundamental-Ava(519★)/ video-production-skills(500★)

GitHub 今日出现五个高 star 的 AI Agent 工具项目:(1) Kulaxyz/self-learning-skills(789★)——让 AI 编程 agent 从 session 中沉淀「金路径」的自我学习技能;(2) lycorp-jp/sim-use(523★)——给 AI agent 接入 iOS Simulator 和 Android emulator / 设备的视觉与操作能力;(3) TianhangZhuzth/Fundamental-Ava(519★)——数字人框架,自主、协作、社交智能体;(4) HUANGCHIHHUNGLeo/claude-real-video(506★)——让 Claude 真正「看」视频,URL / 本地文件,场景感知去重帧 + 转写;(5) Pluviobyte/video-production-skills(500★)——可复用的 AI 视频制作技能库(创作 / 复刻 / 动效 / QA)。

Why

GitHub 当日五个 AI Agent 工具项目同时突破 500★,分布在自我学习、多模态感知、数字人、视频生产四个维度,Agent 工业化在工具层进入爆发期。

Impact

Agent 工程化:「模型 + 工具 + 知识」三层基础设施正在同步成型,开发者社区供给侧爆发;多模态 agent:sim-use + claude-real-video 把 agent 交互从文本扩展到 GUI / 视频,多模态 agent 能力门槛降低;数字人与视频生产:Fundamental-Ava + video-production-skills 把 agent 生产能力扩展到「视频内容生产」具体商业场景;开源生态:MIT / Apache 等协议的开源 agent 工具对闭源商业平台形成持续压力。

Numbers

789★ Kulaxyz/self-learning-skills

523★ lycorp-jp/sim-use

早报判断

这五个项目的共同主题是「Agent 能力边界扩展」,分布在三个维度:① 自我学习(self-learning-skills)——让 agent 沉淀经验,呼应 loop engineering 的 Memory Update Loop 范式;② 多模态感知(sim-use / claude-real-video)——让 agent「看见」屏幕和视频,把 agent 的交互场景从文本扩展到 GUI / 视频 / 数字人;③ 数字人与视频生产(Fundamental-Ava / video-production-skills)——把 agent 的生产能力从代码扩展到「视频内容生产」这一具体商业场景。值得注意的是,所有五个项目都是「Agent 工具层」而非「模型层」,且都选择开源——这与 LangChain OpenWiki、Anthropic Fable 5 内部知识图谱共同印证:Agent 工业化时代,「模型 + 工具 + 知识」三层基础设施正在同步成型。sim-use 与 claude-real-video 一起,把 agent 的「眼睛」从 GUI 自动化(如 Anthropic Computer Use)扩展到视频理解,这是 agent 多模态能力的下一波增长点。self-learning-skills 的 789★ 是当日最高,说明「让 agent 从经验中学习」是开发者社区最迫切的需求——呼应 trq212 unknown unknowns 方法论(让 Claude 找你的 unknown unknowns)+ SkillCoach 学术方向(self-evolving rubrics)。

接下来看：self-learning-skills 在 30 天内是否被 Claude Code / Cursor / Codex 等 IDE 产品化 / sim-use 与 Anthropic Computer Use、OpenAI Operator 的能力对比

#GitHub #Agent 工具 #Self-Learning #sim-use

GitHub Kulaxyz/self-learning-skills↗ GitHub lycorp-jp/sim-use↗ GitHub TianhangZhuzth/Fundamental-Ava↗ GitHub HUANGCHIHHUNGLeo/claude-real-video↗ GitHub Pluviobyte/video-production-skills↗

研究论文重要度 3/5 高置信官方源

arXiv 今日亮点合集:Program-as-Weights 新范式 + 持续态 AI 控制分布式攻击 + SkillCoach 自演化评分 + WorldDirector 世界模拟器——研究层 5 篇交叉印证

arXiv 与 Hugging Face papers 今日出现多篇高价值研究:① Program-as-Weights: A Programming Paradigm for Fuzzy Functions(arXiv 2607.02512,HF 53 分)——将程序作为神经网络权重的新范式,模糊函数(fuzzy functions)可通过程序直接编码为网络权重;② Distributed Attacks in Persistent-State AI Control(arXiv 2607.02514)——持续态 AI 控制系统中的分布式攻击,直接对应 Anthropic Fable 5 cyber safeguards 关注的安全场景;③ SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use(arXiv 2607.01874,HF 12 分)——Agent 技能使用的自演化评分方法,与 mattpocockuk 提出的 skill eval 瓶颈直接相关;④ WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory(arXiv 2607.02517,HF 16 分)——可控世界模拟器 + 持久动态记忆;⑤ EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments(arXiv 2607.02440,HF 39 分)——智能体策略自主进化的交互评测环境;另 AgenticSTS / AgenticDataBench / Multi-Resolution Flow Matching 等亦值得跟踪。

Why

arXiv 今日 5+ 篇高价值研究论文交叉应证三个方向——Agent 安全(持续态控制)、Agent 评测(多维矩阵)、范式突破(程序即权重);研究层与工业层(Anthropic / LangChain / 开发者社区)形成跨圈层共振。

Impact

Agent 安全研究:「持续态 AI 控制」成为新前沿,Distributed Attacks 类研究将催生新防护标准;Agent 评测生态:SkillCoach / EvoPolicyGym / AgenticSTS / AgenticDataBench 等多基准共同推动评测从单点向多维矩阵演化;范式突破:Program-as-Weights 如果可复现,将挑战「权重 = 训练后参数」的基础假设,影响可解释性 / 可验证性 / 可组合性研究方向;世界模拟:WorldDirector + 持久动态记忆与 agent 时代知识管理基础设施方向一致。

Numbers

53 分 Program-as-Weights HF 热度

39 分 EvoPolicyGym HF 热度

早报判断

今日研究层呈现三个交叉应证的方向:① Agent 安全:Distributed Attacks in Persistent-State AI Control 与 Anthropic Fable 5 cyber safeguards 同期出现,说明「持续态 AI 控制」是 AI 安全的新前沿——传统 LLM 安全关注单次 prompt-response,但 agent 时代的「持续态 AI」(长时间运行、跨 session 维护状态)引入了全新攻击面;② Agent 评测:SkillCoach(self-evolving rubrics)+ EvoPolicyGym(策略自主进化评测)+ AgenticSTS(有界记忆测试床)+ AgenticDataBench(数据智能体基准)四篇同期出现,说明「Agent 评测」正从单点基准向多维评测矩阵演化,呼应开发者社区的 skill eval 瓶颈讨论;③ 范式突破:Program-as-Weights 提出「程序即权重」的新范式,如果可复现,将挑战传统「权重 = 训练后参数」的基础假设——可能催生可解释性 / 可验证性 / 可组合性更强的神经网络架构。WorldDirector 把「持久动态记忆」引入世界模拟器,与 Anthropic Fable 5 内部 Obsidian 知识图谱 + LangChain OpenWiki 的「agent 持久记忆」方向形成学术与工业的共振。

接下来看：Program-as-Weights 是否被独立实验室复现,以及「程序即权重」范式在主流模型架构中的可行性 / Distributed Attacks 论文的具体攻击模型与 Anthropic CJS 框架是否形成互补

#arXiv #Program-as-Weights #Distributed Attacks #SkillCoach

arXiv 2607.02512 Program-as-Weights↗ arXiv 2607.02514 Distributed Attacks in Persistent-State AI Control↗ arXiv 2607.01874 SkillCoach↗ arXiv 2607.02517 WorldDirector↗ arXiv 2607.02440 EvoPolicyGym↗ arXiv 2607.02255 AgenticSTS↗ arXiv 2607.01647 AgenticDataBench↗

观点观察重要度 3/5 中置信已核验

Skill eval 是 2026 年被低估的瓶颈:mattpocockuk「Evals on skills are hard」 + steipete EffectTS skill 蒸馏 + SkillCoach 自演化评分——交叉印证 skill 评测生态正在成型

Total TypeScript/AI Hero 作者 mattpocockuk 7-3 推文(168 赞):「'Evals on skills are hard' 是今年的 understatement」;配合 steipete(Peter Steinberger)上下文:要给 EffectTS 做 skill,先从「最新一代 agent 搞不定 Effect 哪些点」蒸馏出来就完成 80%,但给 skill 做 eval 很难。配合 arXiv SkillCoach 论文(self-evolving rubrics)与 LangChain OpenWiki(agent 文档)+ self-learning-skills GitHub(789★)共同印证:2026 年 7 月 Agent skill 生态的最大瓶颈已从「skill 编写」转向「skill 评测」。

Why

mattpocockuk / steipete 工业痛点 + SkillCoach 学术方向 + self-learning-skills 开源社区 + LangChain OpenWiki 文档工业化,四方交叉印证「skill eval 是 2026 年 Agent 工程化的最大瓶颈」;Agent 工业化进入「评测驱动」阶段。

Impact

Agent 工程化:Skill eval 是「最后一公里」难题,谁先解决「skill 在什么场景下可靠」的问题,谁就能占据基础设施位置;Agent 评测生态:SkillCoach 等学术方向可能催生 skill 评测基准(Beyond EvalSigEval 等);中型 AI 公司:Skill eval 投入将成为 Agent 商业化的关键门槛,与 LangChain OpenWiki 类工具结合形成差异化竞争;开源社区:self-learning-skills + LangChain OpenWiki + SkillCoach 共同推动 skill 评测基础设施开源化。

Numbers

mattpocockuk 168 赞 / steipete(quoted) mattpocockuk 与 steipete 互动量

12 分 SkillCoach HF 热度

早报判断

Skill eval 瓶颈是 Agent 工业化时代的「最后一公里」难题。一个完整 skill 包含三个环节:① 编写(知道要写什么 skill)② 蒸馏(把模糊的人类知识变成结构化指令)③ 评测(知道这个 skill 在不同场景下的成功率)。过去 6 个月,GitHub 上 agent skill 仓库数量爆发(self-learning-skills 789★ / video-production-skills 500★ / Pluviobyte 等),skill 编写环节已基本解决;skill 蒸馏环节靠 trq212 unknown unknowns + Boris Cherny loop engineering 方法论也在快速推进。但 skill 评测环节始终缺位——给一个 skill 写 eval 远比写 skill 本身难,原因有三:① skill 的成功标准因场景而异(同一 skill 在代码生成 vs 文档生成场景下成功标准完全不同);② skill 评测需要 baseline 模型对比(而 baseline 模型本身在快速迭代);③ skill 评测的成本极高(需要大规模 human annotation 或 sandbox 环境)。SkillCoach 论文提出 self-evolving rubrics 是学术方向,mattpocockuk + steipete 的实践吐槽是工业痛点,LangChain OpenWiki + self-learning-skills 等开源项目也在反向推动 skill 评测基础设施成型。预计未来 6-12 个月,「skill 评测基准」会成为 Agent 工程化的下一个竞争点——谁先解决「我的 skill 在什么场景下可靠」的问题,谁就能在 agent 工业化时代占据基础设施位置。

接下来看：LangChain / Anthropic / OpenAI / Google DeepMind 是否在 6-12 个月内推出官方 skill eval 工具 / SkillCoach 等学术方向是否被商业平台采纳(self-evolving rubrics 工程化)

#Skill Eval #mattpocockuk #steipete #EffectTS

@mattpocockuk X:Evals on skills are hard↗ @steipete X(quoted):EffectTS skill 蒸馏↗ arXiv 2607.01874 SkillCoach↗

研究论文重要度 2/5 低置信发展中

Google DeepMind Discovery 团队发布 COrigami:蛋白质等领域 co-design 端到端协同设计管线

@GoogleDeepMind 7-3 转推 DeepMind Discovery 团队最新工作 COrigami:一条端到端协同设计管线(用于蛋白质等领域的 co-design)。原帖被截断,论文细节(arXiv ID / 实验数据 / 应用案例)需进一步跟进。

Why

DeepMind Discovery 团队继 AlphaFold 之后的下一个生物学方向,co-design 把 AI 在生物学的能力从「理解」推进到「设计」;但目前为单条转推,细节待补全。

Impact

AI for Science:co-design 成为下一个前沿,从「单向预测」走向「结构-功能协同优化」;制药行业:蛋白质药物 / 酶设计 / 抗体筛选的 AI 能力提升;合成生物学:代谢通路设计 / 生物制造的 AI 协同设计;材料科学:蛋白质基材料 / 自组装结构的新设计范式;DeepMind:AlphaFold 之后的下一个生物学战略方向。

Numbers

蛋白质等领域的 co-design COrigami 应用领域

早报判断

Co-design(协同设计)是 AI for Science 的下一个前沿——传统 AI for Science 多关注「给定结构预测性质」或「给定性质生成结构」的单向任务,co-design 把这两个方向融合,让结构与性质同时优化。COrigami 选择蛋白质作为首个应用领域,这是 DeepMind 在 AlphaFold 系列之后的下一个生物学方向——AlphaFold 解决了「蛋白质结构预测」,COrigami 解决「蛋白质结构-功能协同设计」,等于把 AI 在生物学的能力从「理解」推进到「设计」。这一方向如果成熟,将直接影响:① 制药行业(蛋白质药物 / 酶设计 / 抗体筛选);② 合成生物学(代谢通路设计 / 生物制造);③ 材料科学(蛋白质基材料 / 自组装结构)。需要注意 caveat:目前信息仅来自 GoogleDeepMind 单条转推,原帖截断,论文细节(arXiv ID、baseline 对比、应用案例)均待补全,本条作为「方向性信号」记录而非完整研究报道。

接下来看：COrigami 论文的 arXiv 链接 / 实验数据 / 与 AlphaFold 的关系 / COrigami 在蛋白质设计、酶工程、抗体筛选的具体应用案例

#Google DeepMind #COrigami #co-design #蛋白质

@GoogleDeepMind X:COrigami 转推↗

产品上新重要度 2/5 中置信多源混合

豆包 GEO skill 开源升级版:网页 + 手机 App 双端采集 / 截图 + XML 全记录 / 不绕登录——@yaojingang 7-3 发布

@yaojingang 7-3 发布并开源升级版豆包 AI GEO(生成式引擎优化)采集 / 清洗 / 分析 skill(获 61 赞)。三大能力:① 网页端(OpenCLI)+ 手机 App(Android Studio AVD + Appium UiAutomator2)双端采集,同一批关键词可并行取两端结果;② 手机端不只截答案,而是把截图、XML、引用资料卡片、引用状态、引用次数全记录;③ 统一输出 doubao-crawl.json / summary.json / 结构化 Markdown / Excel / Kami 风格 HTML,后续 GEO 分析共用一套模板。明确边界:不绕登录、不绕验证码、不抓隐藏接口、不做账号池——只服务低频研究 / 教学 / 可复核证据采集。GitHub + 演示报告均公开。

Why

豆包 GEO skill 开源升级版是 GEO 赛道基础设施层关键进展,「双端采集 + 全字段记录 + 明确边界」三点设计符合学术与品牌方研究规范;可能催生 GEO 工具「合规版 vs 灰产版」分化。

Impact

GEO 赛道:工具层从零散爬虫走向标准化开源,豆包 GEO skill 成为国内首批合规版;学术研究:可复用工具降低 GEO 学术研究门槛;品牌方:可系统化监测 AI 回答中的品牌可见度与引用情况;字节跳动 / 豆包:开源工具降低 GEO 研究门槛,可能反向推动豆包在 GEO 可见度上的优化;合规边界:明确「不绕登录 / 不绕验证码 / 不抓隐藏接口」为 GEO 工具划定合规线。

Numbers

双端采集 / 全字段记录 / 结构化输出豆包 GEO skill 三能力

不绕登录 / 不绕验证码 / 不抓隐藏接口 / 不做账号池明确合规边界

早报判断

豆包 GEO skill 开源是 GEO(Generative Engine Optimization,生成式引擎优化)赛道基础设施层的关键进展。GEO 是 2026 年新兴的 SEO 变体——传统 SEO 优化搜索结果排名,GEO 优化生成式 AI 回答中的内容引用。豆包(字节跳动旗下 AI 助手)是国内 GEO 的关键战场之一,豆包 GEO skill 的开源等于把「如何系统性采集豆包 AI 回答」这一关键能力沉淀为可复用工具。该 skill 的三个亮点:① 双端采集(网页 + 手机 App)避免了单端偏差,学术严谨性高;② 手机端全字段记录(截图 + XML + 引用卡片 + 引用次数)让证据可复核,符合学术研究规范;③ 明确边界(不绕登录 / 不绕验证码 / 不抓隐藏接口)避免合规风险,定位为「低频研究 / 教学 / 可复核证据采集」而非商业爬虫。这是国内 AI 工具层少有的「研究友好 + 合规友好」开源案例,值得其他 GEO 工具(Perplexity GEO / Kimi GEO / 文心一言 GEO 等)跟进。预计未来 12 个月,GEO 工具层会出现「合规版 vs 灰产版」的明确分化,合规版成为学术与品牌方研究 AI 品牌可见度的标配。

接下来看：豆包 GEO skill 在 30 天内是否被 GEO 学术研究者广泛采用 / 其他 AI 助手 GEO 工具(Perplexity / Kimi / 文心一言 / ChatGPT)是否跟进开源

#豆包 #GEO #开源 #字节跳动

@yaojingang X:豆包 GEO skill 开源↗ GitHub 仓库(链接在 X 引用中)↗ 演示报告(链接在 X 引用中)↗

观点观察重要度 2/5 低置信发展中

PM 视角:AI Agent 网页布局三栏范式(右侧 Agent + 中间内容 + 左侧菜单)——@vista8 提示把设计规范做成模型可读参考而非一次性 prompt

@vista8 7-3 PM 视角观察:现在很多网页布局是「右侧 AI Agent,中间内容,左侧菜单」,分栏需要支持拖拽和隐藏、合理利用空间。难点:用自然语言很难描述清楚这些交互细节。可行解法:沉淀一些交互规范 / 标准文档,供 AI 学习参考——把设计规范变成模型可读的参考材料,而不是依赖一次性 prompt。配 4 张布局示意。

Why

PM 视角对 AI Agent UI 范式的早期洞察,三栏布局正在成为默认范式但设计难题未解决;提出「设计规范 agent 友好化」思路,与 LangChain OpenWiki + loop engineering 方向一致。

Impact

AI Agent UI 范式:三栏布局(右侧 AI + 中间内容 + 左侧菜单)成为默认;设计工具:Figma / Framer / v0 等可能在 6-12 个月内推出「agent 可读 + 人类可读」双版本设计规范;设计师:需要学习「agent 友好设计规范」,设计产出从「人类可读文档」扩展到「机器可读参考」;AI 辅助设计:从「一次性 prompt 生成 UI」走向「agent 检索设计规范 + 生成 UI」,质量与一致性提升。

Numbers

右侧 AI Agent + 中间内容 + 左侧菜单三栏布局结构

早报判断

这是 PM 视角对 AI Agent UI 范式的早期洞察,信号意义大于方案成熟度。三栏布局(右侧 AI + 中间内容 + 左侧菜单)正在成为 AI Agent 类产品的默认布局范式——Notion AI、Linear AI、Coda AI、Arc Browser AI 等都在往这个方向走。但这一布局有几个未解决的设计难题:① 拖拽 / 隐藏的分栏交互细节很难用自然语言描述,一次性 prompt 难以覆盖;② 三栏在不同屏幕尺寸下的响应式适配;③ AI Agent 与主体内容的视觉层级冲突;④ 用户在不同任务下对「AI 可见性」的需求不同(简单任务希望 AI 收起,复杂任务希望 AI 展开)。@vista8 提出的解法是「把设计规范做成模型可读参考材料」,呼应 LangChain OpenWiki 的「not for humans, for agents」思路——设计规范也需要「agent 友好版本」,让 AI 在生成 UI 时有结构化参考而非依赖自然语言理解。这与 loop engineering 的 Memory Update Loop 范式也是一致的:设计规范不再是静态文档,而是动态可被 agent 检索的参考。预计未来 6-12 个月,「agent 友好设计规范」(machine-readable design system)会成为设计工具(Figma / Framer / v0 等)的下一个竞争点——谁能提供「agent 可读 + 人类可读」双版本设计规范,谁就能在 AI 辅助设计赛道占据基础设施位置。

接下来看：Figma / Framer / v0 等设计工具是否在 6-12 个月内推出「agent 友好设计规范」 / 三栏布局是否在 Notion AI / Linear AI / Arc Browser AI 等产品中成为默认

#AI Agent UI #三栏布局 #设计规范 #agent 友好

@vista8 X:AI Agent 三栏布局 PM 视角↗

X / Twitter 讨论

推特上在讨论什么

10 条

mvanhorn @mvanhorn 106 likes

ELI5 总结 trq212 新文章:"Claude 已不再是瓶颈,你没告诉它的事才是"。提示词是地图,代码库才是真实的路——你没提到的坑,Claude 都会自己脑补,任务越大脑补越多。提出 agentic 编码的核心是缩小"提示词与代码实情"的差距。4 种 unknown:你说的、你知道还没决定的、明显到懒得写的、没考虑到的。8 条具体方法:盲点扫描让 Claude 找你的 unknown unknowns;用 4 个差异极大的 HTML 原型替代一次错误的实现;让 Claude 一次一个问题采访你,从能改变架构的答案开始;无法描述时直接给参考代码(另一种语言也行);计划先列出最容易改动的数据模型/接口/UX;实施时维护 implementation-notes.md 记录每次偏离;完成后让 Claude 出题考你,直到通过再合并。

trq212：Thariq 发布的新文章链接(原文为 https://t.co/hPiZr1kG7r,围绕 agentic coding 时代提示词与上下文的边界)

原帖 ↗

_catwu @_catwu 179 likes

Anthropic 员工(bio: claude code + cowork @anthropicai,前 Dagster/Scale)发布:"这个长周末你们在用 Fable 5 做什么?在评论里给我看 demo!" 引发 101 条高密度回复社区共建。配合官方账号同周 re-launch Fable 5,Anthropic 正在通过 cowork 形态推动 Fable 5 进入开发者长周末实践。

Claude (claudeai)：官方账号 7 月 1 日发布:Fable 5 is back(配演示视频 poster)

原帖 ↗

RealCodedAlpha @RealCodedAlpha 279 likes

解读疑似 Anthropic 内部 Fable 5 Prompt 结构,核心观点:好 Prompt 不是更长更复杂,而是把任务边界讲清楚。结构 5 部分 — Context(背景)、Request(要做什么)、Output Format(怎么交付)、Constraints(哪些不能越界)、Checkpoint(何时停下来问)。重点在 Checkpoint,只三种情况暂停:①不可逆操作 ②任务范围变化 ③需要用户提供信息;其他情况模型应继续完成、最后再汇报。结论:模型越强越不需要堆废话,需要的是目标、边界、验收标准。

原帖 ↗

milesdeutscher @milesdeutscher 152 likes

"我不再手动 prompt Claude Code 了。我让循环自动 prompt Fable,我的工作就是写循环。这是 Boris Cherny 的方法(loop engineering),效果非常强。" 配图为《AI Edge》团队提供的 loop engineering 入门指南封面。核心范式转变:从 prompt engineering 到 loop engineering——开发者角色从"提问者"变成"循环设计者"。

AI Edge (aiedge_)：loop engineering 新手入门指南(链接 https://t.co/kAZAkoPphh,无原文)

原帖 ↗

CryptoTied @CryptoTied 121 likes

发现:Anthropic 内部使用一个超大规模 Obsidian 知识图谱管理公司知识。规模数据:8893 个节点、4729 条链接,从远处看像知识星系。结构化模块包括 Marginalia Collection、Glossary Backbone、Comparative Grammar MOC、Oral History Transcripts、Field Notes Archive 等,中心 Master Index 串联 9000+ 文档。含义:Anthropic 把 Obsidian + 复杂知识图谱用到企业级,信号指向 second brain / 知识管理系统的实战化方向。

CryptoTied：前一天推文:18 分钟用 Claude Code + Sonnet 5 做出获奖级网站教程(配演示视频)

原帖 ↗

mercor_ai @mercor_ai 488 likes

在 SWE 评测基准 APEX-SWE 上放出 Fable 5 重发布版的成绩,数字: Fable 5(6 月原版)65.5% Pass@1;Fable 5(7 月重发布版)54.8% Pass@1;Claude Opus 4.8 = 45.3% Pass@1。结论:re-release 比原版低约 10 个点,但仍超 Opus 4.8 超过 9 个点。不是简单的"缩水",可能是 prompt/对齐调整后的可生产版本。

原帖 ↗

vista8 @vista8 59 likes

PM 视角观察:现在很多网页布局是"右侧 AI Agent,中间内容,左侧菜单",分栏需要支持拖拽和隐藏、合理利用空间。难点:用自然语言很难描述清楚这些交互细节。可行解法:沉淀一些交互规范/标准文档,供 AI 学习参考——把设计规范变成模型可读的参考材料,而不是依赖一次性 prompt。配 4 张布局示意。

原帖 ↗

yaojingang @yaojingang 61 likes

发布并开源升级版豆包 AI GEO 采集/清洗/分析 skill。三大能力:①网页端(OpenCLI)+ 手机 App(Android Studio AVD + Appium UiAutomator2)双端采集,同一批关键词可并行取两端结果;②手机端不只截答案,而是把截图、XML、引用资料卡片、引用状态、引用次数全记录;③统一输出 doubao-crawl.json / summary.json / 结构化 Markdown / Excel / Kami 风格 HTML,后续 GEO 分析共用一套模板。明确边界:不绕登录、不绕验证码、不抓隐藏接口、不做账号池——只服务低频研究/教学/可复核证据采集。GitHub + 演示报告均公开。

原帖 ↗

yibie @yibie 239 likes

解读 LangChain 新开源项目 OpenWiki(477 star、MIT 协议):一个 CLI,自动为代码库生成文档并持续维护;设计目标"not for humans, for agents"——让 agent 写、agent 维护、agent 参考。安装 `npm install -g openwiki`;用法:openwiki --init 配置模型与 API key → 生成文档到 openwiki/ → 自动在 AGENTS.md/CLAUDE.md 追加提示告知 coding agent 参考。预置模型支持 GLM 5.2、Kimi K2.6、Sonnet 5;provider 支持 OpenRouter、Fireworks、Baseten、OpenAI、Anthropic;另含 GitHub Action 每天自动开 PR 更新文档,目录存在走增量、不存在则创建。与 Karpathy LLM Knowledge Base 概念、EXM7777 Agent OS "memory in files" 原则、loop pattern 中的 Memory Update Loop 形成交叉应证。

GitHub langchain-ai/openwiki：GitHub 仓库 langchain-ai/openwiki,卡片元数据:title=GitHub - langchain-ai/openwiki: OpenWiki is a CLI that writes and maintains agent documentation for...

原帖 ↗

mattpocockuk @mattpocockuk 168 likes

Total TypeScript/AI Hero 作者 mattpocock:"'Evals on skills are hard' 是今年的 understatement(轻描淡写)"。配合 steipete 的上下文:要给 EffectTS 做 skill,先从"最新一代 agent 搞不定 Effect 哪些点"蒸馏出来就完成 80%,但给 skill 做 eval 很难。一句话揭示:2026 年 7 月 Agent skill 生态的最大瓶颈已从编写转向评测。

Peter Steinberger (steipete)：给 EffectTS 做 skill,先蒸馏"最新一代 agent 处理 Effect 的关键不到位点"就能完成 80%,但 skills 的 evals 很难做。

原帖 ↗

2026 · 七月

4 期

日

一

二

三

四

五

六

1 2 3 4

Signal Mix

信号构成

头条 1

观点观察 4

产品上新 3

模型发布 1

行业动态 1

研究论文 2

Watchlist

接下来看

Anthropic CJS 框架是否被 OpenAI / Google / xAI / Mistral 采纳为跨厂行业标准,以及 HackerOne 首批越狱技术提交情况与单笔定价区间
Boris Cherny loop engineering 在 Claude Code 后续版本是否被产品化(自动循环生成工具、loop template 内置),以及 Cursor / Codex / Zed 30-60 天内跟进情况
LangChain OpenWiki 30 天 star 增长曲线(目标 1k+ star 即视为破圈)+ 是否被 LangGraph / LlamaIndex / AutoGen 等框架跟进
APEX-SWE / BridgeBench / LMArena 等第三方基准对 Fable 5 重启版的进一步评估与 Anthropic 官方回应,以及 Peter Gostev 60+ 极端任务测试数据
HN 三连质疑是否催生新一轮「AI 实际价值」独立研究 + 主流媒体(FT / Bloomberg / NYT)跟进 + 企业 CIO/CTO 决策影响
Anthropic 内部 Obsidian 知识图谱是否对外公开 / 成为招聘卖点 / 推动 Anthropic 知识管理体系化,以及 OpenAI / DeepMind / xAI 是否披露类似规模体系
mattpocockuk / steipete 提出的 skill eval 瓶颈是否催生新基准(SkillCoach 等学术方向商业化)+ LangChain / Anthropic 6-12 个月内官方 skill eval 工具
trq212 unknown unknowns 4 类与 8 种方法是否被 Claude Code / Cursor / Codex 等 IDE 产品化,RealCodedAlpha 解读的 5 段 Prompt 结构是否被证实为 Anthropic 内部模板

Previous Editions

往期早报

全部归档 →

2026-07-03 周五 15 则

Fable 5 重启翻车震荡全球、OpenAI 据报向美国政府让 5% 股权、Palantir CEO 公开炮轰闭源大模型——上层信任在裂、下层能力在涨

过去 24 小时,AI 圈出现三层罕见的同向信号:Anthropic 旗下 Claude Fable 5 重启仅 24 小时即遭遇硬基准雪崩(BridgeMind 重测 Debugging 从 86.2 跌到 25.9)、社区怒骂(Hesamation 4.4k 赞「不是 nerf 是屠杀」)、厂商自己官宣 7.7 从订阅下架——三连击指向同一结论;OpenAI 据卫报报道正与美国政府早期谈判 5% 股权让渡,改写监管路径预期;Palantir CEO Alex Karp 在 CNBC 近 20 分钟情绪爆发式输出,称闭源模型被「不负责任地过度推销」、企业按 token 付费等于养对手。叠加 xAI Voice Agent Builder 上线、Gemini Omni Flash 登顶 Video Arena、Meta 开源 Astryx、Z.ai ZCode 1.5x 订阅 IDE 等产品密集发布,「上层信任在裂、下层能力在涨」的张力集中显形。

2026-07-02 周四 13 则

从「前沿模型之争」切换到「治理与工作流自动化」:Anthropic Fable 5 全球回归 + 行业首个 jailbreak 4 维框架,Claude Code background agents 端到端开 PR

过去 24 小时,AI 圈的叙事主线从「谁发了更强的模型」切换到「谁把 agent 工作流的最后一公里做掉了」。Anthropic 7-1 宣布 Fable 5 全球恢复访问,联合 Amazon/Microsoft/Google 等 Project Glasswing 伙伴起草 jailbreak 严重性评估与响应共识框架(4 维度:能力增益/增益广度/武器化难度/可发现性),配套新 safety classifier(拦截率 >99%)、HackerOne 漏洞悬赏、24/7 监控与更深的美政府合作——这是 6-12 出口管制事件后第一次系统性的 industry-wide 治理响应。Claude Code 2.1.198 同步发布,Claude in Chrome 正式 GA、background agents 在 worktree 完成后自动 commit/push 并开 draft PR,端到端交付自动化;Cognition 发布 Devin Security Swarm,以 Agentic MapReduce 架构把 AI 安全扫描做成并行任务;智谱 GLM-5.2 官方 IDE ZCode 上线(HN 266 分),GLM Coding Plan 订阅者额度 1.5x 并支持 BYOK;Nous Hermes Agent v0.18.0「The Judgement Release」同日发布,/usage 命令用量透明化。

2026-07-01 周三 15 则

模型之争转入范式之争:Sonnet 5 携促销价登场,GeneBench-Pro 把 AI 智能体拽进科研,Claude Science 把算力调度交到科学家手里

过去 24 小时,OpenAI 与 Anthropic 罕见同日四发:Sonnet 5 携促销价 $2/$10 百万 token 正式登场,Intelligence Index 53 分与 GPT-5.5 同分、逊于 Opus 4.7/4.8;GeneBench-Pro 用 129 道合成题与已知因果结构,把『科学智能体』评估从『答得好不好』推向『能不能做真正的研究决策』;Claude Science 把 60+ 科研连接器、本地/HPC/Modal 算力调度、reviewer agent 自校打包成单一一站式入口;DeepMind 同步双发 Nano Banana 2 Lite($0.034/图)与 Gemini Omni Flash($0.10/秒)。同日 Mythos 出口管制松动信号再起、吴恩达系统阐述『Loop Engineering』三 Loop 框架、Nous Hermes Agent 网页抓取速度提升 60 倍、SGLang DSpark 预测解码实测数据放出、Sonnet 5 也被指嵌入了针对中国用户的隐蔽检测代码。

2026-06-30 周二 20 则

Spotify × Claude Code 工业级落地 + Cognition Devin Fusion + Claude Azure GA:agent 工程的下一阶段竞争从模型层下沉到 harness 层

过去 24 小时模型发布继续暂缓,但 agent 工程的下一阶段轮廓已经清晰,三条主线同日落地。其一,Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 公开对谈,披露 Spotify 每天约 4500 次生产部署、约 73% PR 涉及 AI、judge 评审模型把迁移 PR 通过率从约 25% 拉到约 80%,Boris 本人更有超 40% 代码由『验证循环』生成。其二,Cognition 发布 Devin Fusion 混合模型 harness,把达到 Fable 级智能的成本压低约 35%,并把『能跑 benchmark』与『能写生产代码』两条曲线明确分开。其三,Claude Opus 4.8 与 Haiku 4.5 在 Microsoft Foundry 正式 GA,补齐 Anthropic 云渠道的最后一块拼图,同日 bboczeng 披露其 6 月 ARR 约 470 亿美元。此外,百度 Unlimited-OCR 以 3B 总参 / 570M 激活的 MoE 冲上 HF/GitHub 四榜;美团 LongCat 揭晓 Owl Alpha——OpenRouter 日调用量全球 Top 3、三大 Agent 场景月调用量均登顶。这些事件指向同一判断:模型 API 同质化之后,竞争重心已从『谁的模型更强』下沉到 agent 工程范式、云厂商渠道、企业渗透速率三个更深的变量。

2026-06-29 周一 13 则

平台条款战 + 企业运营操作系统战 + 物理供给战与人事墙:Google 限 Meta 用 Gemini、HP Frontier 全企业上线、贾扬清离开英伟达

过去 24 小时,真正的当日主线不是又出一个模型,而是同时砌起的三道墙:Google 据 FT 报道限制 Meta 使用 Gemini,平台方首次把模型访问条款做成对竞争对手的武器;OpenAI 把 Frontier 战略合作的第一个全企业客户交给 HP,验证 Frontier 作为'运营操作系统'的端到端落地;Coinbase 一口气把默认模型换到 GLM 5.2 与 Kimi 2.7 等开源权重,AI 支出砍近半,LibreChat 缓存命中率从 5% 拉到 60%。同时,Meta 在 Nature 上发表 Brain2Qwerty v2 端到端脑机接口、贾扬清离开被收购仅一年的英伟达、DeepSeek V4 官宣 7 月中旬发布并引入高峰 2 倍定价。每一条都指向同一个判断:模型发布期暂缓后,AI 产业竞争的重心正从'谁的模型更强'下沉到'模型之外'——谁能用条款卡住对手的供给、谁先把企业内部 agent 当成操作系统、谁能让基础设施继续扩张。

2026-06-28 周日 14 则

官方按下暂停键的一天:GPT-5.6 三档预览余热未散,看点转向开源追平与 Mythos 出口管制松动

过去 24 小时,OpenAI 与 Anthropic 官博都没有新的重磅发布——GPT-5.6 Sol/Terra/Luna 三档预览是 6-26 的余热,Claude Tag 进 Slack 是 6-23 的延续。真正的当日动态集中在社区与开源侧:OpenRouter 抛出『开源与闭源前沿差距稳定在 3-6 个月、18 个月没被拉开』的判断,DeepSeek 开源投机解码全栈库 DeepSpec,Coinbase 把默认模型换成开源权重后 AI 支出近乎减半;政策面上,被华府暂停访问的 Mythos 5 据社区转述出现『部分解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型。一句话:今天没有新模型上线,但『谁追上了、谁被允许上线』这两条暗线都在加速。

2026-06-27 周六 17 则

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

OpenAI 发布 GPT-5.6 Sol/Terra/Luna 三档模型,Sol 为迄今最强但首次由美国政府审查用户名单后限量放行;同期 Anthropic Mythos 5 恢复向美国可信机构部署,出口管制空档催生亚洲厂商推 Mythos-like 模型。开源侧两记重拳:DeepSeek DSpark 投机解码无损提速 60-85% 并全栈开源,智谱 GLM-5.2(7440 亿参数/MIT)登顶 Code Arena、距 Claude Opus 4.8 不到 1%。三方真实落地数据——OpenAI 内部 Codex token 占比 10 个月升至 99.8%、Anthropic 调查显示三分之一人认为初级岗位高概率被替代、字节 TRAE 90% 代码 AI 生成但人均吞吐仅 1.6 倍——共同指向同一结论:智能体已渗进专业岗位,但工程化交付仍是瓶颈。

2026-06-26 周五 17 则

GPT-5.6 三档齐发,前沿 AI 进入"政府审批"时代

OpenAI 预览 GPT-5.6——旗舰 Sol、均衡 Terra、低价 Luna 三档齐发,主攻网络安全与长程推理。但与模型同样抢眼的是治理:美国政府要审查谁能用 GPT-5.6 并要求延期,Anthropic 的 Mythos 5/Fable 5 也在政府指令下暂停又部分恢复,前沿 AI 正被纳入国家安全框架。同日 Anthropic 指控阿里非法蒸馏 Claude 能力,DeepSeek 用 DSpark 把推理再提速 80%,Qwen 开源世界模型宣称超 Opus 4.8——开源与闭源、东方与西方的张力全面浮现。

2026-06-25 周四 3 则

Claude Tag 把 AI 嵌进工作流,交互范式开始第三次迁移

这一天,Anthropic 发布 Claude Tag,让 Claude 以团队成员身份加入团队既有的协作工具。一位资深研究者把它称为大模型交互设计的「第三次重构」——从「你要去访问的网站」,到「电脑里的应用」,再到「融入人类活动的持续实体」。同周,另一家头部厂商也在把 AI 往工作流深处推,但路径不同:一家讲「智能体替你做事」,一家讲「它伴你做事」。两条路线的分歧,正在显形。

2026-06-24 周三 12 则

Anthropic 指控阿里「非法蒸馏」Claude 闹进参议院,同一天 Qwen 智能体论文登顶 HuggingFace;agent 研究密集轰炸

本期为历史回溯补档(归档日 2026-06-24,北京时间)。实时社媒与算法推荐流无法回溯,且检索期间 WebSearch 接口不稳定,主线事实依据当日 CNBC 同日报道、HuggingFace 策展论文与公开发布交叉整理,所有数字均可溯源至一手页面;凡仅见于单方信件或自建基准的内容,文中已标注 caveat。当天的硬新闻是 Anthropic 致信美国参议院银行委员会,指控与阿里关联的操作者用约 2.5 万个欺诈账户、2880 万次交互「非法提取」(蒸馏)Claude,称这是它「已知最大的一次蒸馏攻击」;戏剧性的是,指控见报同一天,阿里 Qwen 的智能体论文 Qwen-AgentWorld 以 136 票登上 HuggingFace 当日榜首。除这条「IP 与中美 AI 竞争」主线外,当天 HuggingFace 被 agent 研究刷屏:从长程规划评测(PlanBench-XL)、真实职场基准(EnterpriseClawBench)、经验学习(EDV)到开源数据配方(OpenThoughts-Agent),集体把焦点对准『智能体到底行不行、怎么训才行』。

2026-06-23 周二 12 则

智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力

本期为历史回溯补档(归档日 2026-06-23,北京时间),实时社媒与算法流无法回溯,主要依据当日 HuggingFace 策展论文与可检索到的公开发布整理;检索期间 WebSearch 接口持续不可用,深度选题以一手 arXiv/HuggingFace 论文为主力支撑,事实可溯源。当天没有头部厂商的重磅模型发布,主线落在「智能体到底行不行」的硬核评测上:PlanBench-XL 用 1665 个工具、平均 25 轮的零售任务把前沿模型的长程规划逼到崩溃,EnterpriseClawBench 则把 852 个真实职场会话变成可复现评测,直接给 Claude Code、Codex 等 harness 打分。与此同时,GQE、R-SWA、Confident Decoding 等一批「省算力不掉点」的架构/解码工作集中出现,透露出当下业界对推理成本与可靠性的共同焦虑。

2026-06-22 周一 12 则

Five Eyes 警告前沿 AI「数月内」改写网络攻防,GLM-5.2 续压开源成本,智能体记忆研究扎堆

本期为「AI 早报」历史回溯补档(归档日 2026-06-22,北京时间),实时社媒源无法回溯,内容主要依据当日 HuggingFace 策展论文(一手可溯源材料)与可检索到的公开发布/权威媒体报道整理,带主观判断的部分均已标注置信度。当天最硬的官方事件是 Five Eyes 五国情报与网络安全机构罕见联合发声,警告前沿 AI 将在「数月而非数年」内放大进攻性网络能力;研究侧则呈现明显的「智能体记忆 + 扩散语言模型」聚集,HuggingFace 高赞榜被分层记忆、记忆治理、并行区域感知、长程具身记忆等议题占据。模型与产业线多为聚合媒体单一信源转述(GPT-5.6 预览、Fable 5 出口禁令、Noam Shazeer 转投 OpenAI 等),已逐条降置信处理。