Fable 5 cyber safeguards 完整版 + loop engineering 取代 prompt:AI 治理与 Agent 工业化双轨同步进入下半场
过去 24 小时,AI 圈在「治理」与「工程化」两个维度同步加速。Anthropic 在 Fable 5 重启次日(7-2)发布 cyber safeguards 完整技术细节——4 象限分类器 + 4 轴 CJS 评分(总分 0-10、五档分级)、HackerOne 漏洞赏金征集越狱技术,把 AI 安全治理从口号升级为可打分、可复测、可跨厂对齐的行业标准。开发者侧的范式转移同样显著:Anthropic 团队成员 trq212 推 unknown unknowns 方法论,Boris Cherny 的 loop engineering 与之共鸣——「让循环自动 prompt 模型」正在取代「手动写完美 prompt」成为 Agent 工程化的新范式。LangChain 开源 OpenWiki(CLI、477 star、MIT)把 agent 文档作为一等公民产品化,叠加 Anthropic 内部用 8893 节点 Obsidian 知识图谱管理企业知识、mattpocockuk 直言「skill eval 是 2026 年最被低估的瓶颈」——Agent 工业化在文档、记忆、评测三个基础设施层同步成型。
今天同时进入下半场:一是 AI 安全治理被 Anthropic 做成可跨厂对齐的 CJS 4 轴评分 + HackerOne 漏洞征集行业标准,跨厂治理博弈正式入场;二是 Agent 工业化的文档 / 记忆 / 评测三件套(loop engineering、LangChain OpenWiki、Anthropic 8893 节点 Obsidian 知识图谱、skill eval 瓶颈)同步成型。AI 行业从「模型能力军备」正式过渡到「工程化与治理军备」,中型公司结构性挤压开启。
本期导航
本期重点 · 深度报告
快讯 · 看标题就懂
Fable 5 重启后实测生态:APEX-SWE 65.5% → 54.8%(仍超 Opus 4.8 9.5pp)、LMArena 5 赛道一致性、Peter Gostev 60+ 3D 生成测试——增量追踪,不重写全量
继 7-3 早报已深度分析 Fable 5 重启翻车后,过去 24 小时新增实测数据:@mercor_ai 在 SWE 评测基准 APEX-SWE 上放出 Fable 5 重发布版成绩——Fable 5(6 月原版)65.5% Pass@1 → Fable 5(7 月重发布版)54.8% Pass@1(下滑 10.7pp,仍超 Opus 4.8 = 45.3% 超过 9.5pp);@LMArena 三条信号:① Fable 5 重启后在 Text / Vision / Document / Code(Frontend) / Agent 五个赛道收集数千次投票,前后基本一致,Code Arena:Frontend 排名仍第 1 但下滑 27 分;② 邀请用户体验 Battle Mode 与 Agent Mode 投票;③ Peter Gostev 用重部署模型挑战 60+ 个高难度 3D 生成、小游戏与世界构建测试,YouTube 视频已发布。综合判断:Fable 5 重启版「不是简单缩水,可能是 prompt / 对齐调整后的可生产版本」——性能损失但仍领先,符合 cyber safeguards 安全边际上调后的预期。
APEX-SWE 跨基准印证 7-3 BridgeBench 结论,Fable 5 重启版确实有可复现回归但仍领先 Opus 4.8;LMArena 5 赛道投票显示盲评场景下用户体验温和,为「可生产版本」定位提供依据。
Fable 5 重启版定位:在「硬基准 - 盲评用户体验 - 极端任务」三个层级呈现差异化能力损失;开发者选型:简单任务可选 Sonnet 5,中等任务仍可用 Fable 5,极端任务(3D 生成 / 长链路世界构建)暂等数据;Anthropic 商业化:Fable 5 仍可作为高端产品存在,但与 Opus 4.8 的能力差距被护栏调整拉平。
54.8%(6 月原版 65.5% / Opus 4.8 = 45.3%) APEX-SWE Fable 5 重启版 Pass@1
前后基本一致,Code Arena:Frontend 仍第 1 但下滑 27 分 LMArena 5 赛道投票一致性
本期数据是 7-3 早报深度页的增量信号,核心结论不变——Fable 5 重启版在 BridgeBench / APEX-SWE 等硬基准上确实有可复现的回归,但仍领先 Opus 4.8 约 9-10 个百分点。@mercor_ai 的 APEX-SWE 数据与 7-3 @bridgemindai 的 BridgeBench 数据(86.2 → 25.9 Debugging 跌幅)形成跨基准印证:Fable 5 重启版的「性能下降」不是单基准现象,是跨基准一致信号。LMArena 5 赛道投票「前后基本一致」则说明在盲评场景下,Fable 5 的实际用户体验并未出现硬基准那么剧烈的退化——这是好消息,意味着「硬基准雪崩」与「真实用户体验」的差距比想象中大,Anthropic 的「可生产版本」定位有一定依据。Peter Gostev 的 60+ 3D 生成测试(YouTube)则是「极端任务场景」的补充:在小游戏 / 世界构建 / 3D 生成等长链路任务上,Fable 5 是否同样稳健还需要进一步数据。这组数据的真正含义是:Fable 5 重启版在「硬基准 - 盲评用户体验 - 极端任务」三个层级呈现差异化的能力损失——硬基准最严重(护栏过激主导)、盲评中等(用户感知温和)、极端任务待观察——这种「分层退化」对开发者的实际选型有指导意义:简单任务可选 Sonnet 5,中等任务仍可用 Fable 5,极端任务暂等数据。
接下来看:Fable 5 重启版在 30 天内更多基准(HumanEval / MMLU / GPQA 等)的第三方测试结果 / Peter Gostev 60+ 极端任务测试的具体数据(YouTube 视频内容)
Anthropic 内部使用超大规模 Obsidian 知识图谱管理企业知识:8893 节点、4729 链接、Master Index 串联 9000+ 文档——second brain 工业化方向
@CryptoTied 7-3 披露:Anthropic 内部使用一个超大规模 Obsidian 知识图谱管理公司知识,规模数据 8893 个节点、4729 条链接,从远处看像知识星系。结构化模块包括 Marginalia Collection、Glossary Backbone、Comparative Grammar MOC、Oral History Transcripts、Field Notes Archive 等,中心 Master Index 串联 9000+ 文档。这是 second brain / 知识管理系统在头部 AI 实验室工业化部署的早期公开案例。
单源(@CryptoTied)但 Anthropic 内部使用 Obsidian + 复杂知识图谱的工业化案例值得记录;与 LangChain OpenWiki + Anthropic 5 段 Prompt 结构共同指向「agent 时代知识管理基础设施」成型方向。
AI 实验室:知识管理基础设施正成为头部公司标配;中型 AI 公司:将依赖 OpenWiki 类开源工具追赶;企业 CIO:「agent 友好知识库」或将成为采购新类目;知识管理 SaaS(Notion / Confluence):面临「agent 友好」能力升级压力,否则被新一代工具替代。
8893 节点 / 4729 链接 / 9000+ 文档 Anthropic Obsidian 知识图谱规模
这条单源披露值得严肃对待,因为它指向 AI 行业一个被低估的趋势:头部 AI 实验室把「企业知识」作为一等公民管理,而不是依赖 Notion / Confluence / Slack 这种通用 SaaS。Anthropic 选择 Obsidian + 复杂知识图谱的组合有几个关键考量:① Obsidian 是本地优先的文件型知识库,与 git 版本控制天然兼容,适合「agent 写、agent 维护、agent 参考」(呼应 LangChain OpenWiki 思路);② 知识图谱(节点+链接)比线性文档更适合表达概念之间的关联,符合 LLM 的检索习惯;③ 模块化(Marginalia Collection / Glossary Backbone / Comparative Grammar MOC 等)让不同类型的知识有不同维护节奏,与 loop engineering 的 Memory Update Loop 范式一致。这条信号与 LangChain OpenWiki(agent-only 文档)+ Anthropic 内部 Fable 5 Prompt 模板(5 段结构)共同指向同一方向:Agent 时代的知识管理基础设施正在快速成型——「agent 友好的知识库」将成为头部 AI 公司的标配,中型公司则需要依赖 OpenWiki 类开源工具追赶。唯一 caveat 是单源(CryptoTied 单条 X),需要更多 Anthropic 员工或前员工的二次确认,但鉴于 Anthropic 已经在多个公开信号(Redwood Research、Constitutional AI 论文等)展示对「知识管理」的严肃态度,这条披露的可信度尚可。
接下来看:Anthropic 是否公开更多关于内部 Obsidian 使用的信息(招聘信号 / 员工分享) / OpenAI / Google DeepMind / xAI 是否披露类似规模的知识管理体系
GitHub 今日 AI Agent 工具五连发:self-learning-skills(789★)/ sim-use(523★)/ claude-real-video(506★)/ Fundamental-Ava(519★)/ video-production-skills(500★)
GitHub 今日出现五个高 star 的 AI Agent 工具项目:(1) Kulaxyz/self-learning-skills(789★)——让 AI 编程 agent 从 session 中沉淀「金路径」的自我学习技能;(2) lycorp-jp/sim-use(523★)——给 AI agent 接入 iOS Simulator 和 Android emulator / 设备的视觉与操作能力;(3) TianhangZhuzth/Fundamental-Ava(519★)——数字人框架,自主、协作、社交智能体;(4) HUANGCHIHHUNGLeo/claude-real-video(506★)——让 Claude 真正「看」视频,URL / 本地文件,场景感知去重帧 + 转写;(5) Pluviobyte/video-production-skills(500★)——可复用的 AI 视频制作技能库(创作 / 复刻 / 动效 / QA)。
GitHub 当日五个 AI Agent 工具项目同时突破 500★,分布在自我学习、多模态感知、数字人、视频生产四个维度,Agent 工业化在工具层进入爆发期。
Agent 工程化:「模型 + 工具 + 知识」三层基础设施正在同步成型,开发者社区供给侧爆发;多模态 agent:sim-use + claude-real-video 把 agent 交互从文本扩展到 GUI / 视频,多模态 agent 能力门槛降低;数字人与视频生产:Fundamental-Ava + video-production-skills 把 agent 生产能力扩展到「视频内容生产」具体商业场景;开源生态:MIT / Apache 等协议的开源 agent 工具对闭源商业平台形成持续压力。
789★ Kulaxyz/self-learning-skills
523★ lycorp-jp/sim-use
这五个项目的共同主题是「Agent 能力边界扩展」,分布在三个维度:① 自我学习(self-learning-skills)——让 agent 沉淀经验,呼应 loop engineering 的 Memory Update Loop 范式;② 多模态感知(sim-use / claude-real-video)——让 agent「看见」屏幕和视频,把 agent 的交互场景从文本扩展到 GUI / 视频 / 数字人;③ 数字人与视频生产(Fundamental-Ava / video-production-skills)——把 agent 的生产能力从代码扩展到「视频内容生产」这一具体商业场景。值得注意的是,所有五个项目都是「Agent 工具层」而非「模型层」,且都选择开源——这与 LangChain OpenWiki、Anthropic Fable 5 内部知识图谱共同印证:Agent 工业化时代,「模型 + 工具 + 知识」三层基础设施正在同步成型。sim-use 与 claude-real-video 一起,把 agent 的「眼睛」从 GUI 自动化(如 Anthropic Computer Use)扩展到视频理解,这是 agent 多模态能力的下一波增长点。self-learning-skills 的 789★ 是当日最高,说明「让 agent 从经验中学习」是开发者社区最迫切的需求——呼应 trq212 unknown unknowns 方法论(让 Claude 找你的 unknown unknowns)+ SkillCoach 学术方向(self-evolving rubrics)。
接下来看:self-learning-skills 在 30 天内是否被 Claude Code / Cursor / Codex 等 IDE 产品化 / sim-use 与 Anthropic Computer Use、OpenAI Operator 的能力对比
arXiv 今日亮点合集:Program-as-Weights 新范式 + 持续态 AI 控制分布式攻击 + SkillCoach 自演化评分 + WorldDirector 世界模拟器——研究层 5 篇交叉印证
arXiv 与 Hugging Face papers 今日出现多篇高价值研究:① Program-as-Weights: A Programming Paradigm for Fuzzy Functions(arXiv 2607.02512,HF 53 分)——将程序作为神经网络权重的新范式,模糊函数(fuzzy functions)可通过程序直接编码为网络权重;② Distributed Attacks in Persistent-State AI Control(arXiv 2607.02514)——持续态 AI 控制系统中的分布式攻击,直接对应 Anthropic Fable 5 cyber safeguards 关注的安全场景;③ SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use(arXiv 2607.01874,HF 12 分)——Agent 技能使用的自演化评分方法,与 mattpocockuk 提出的 skill eval 瓶颈直接相关;④ WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory(arXiv 2607.02517,HF 16 分)——可控世界模拟器 + 持久动态记忆;⑤ EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments(arXiv 2607.02440,HF 39 分)——智能体策略自主进化的交互评测环境;另 AgenticSTS / AgenticDataBench / Multi-Resolution Flow Matching 等亦值得跟踪。
arXiv 今日 5+ 篇高价值研究论文交叉应证三个方向——Agent 安全(持续态控制)、Agent 评测(多维矩阵)、范式突破(程序即权重);研究层与工业层(Anthropic / LangChain / 开发者社区)形成跨圈层共振。
Agent 安全研究:「持续态 AI 控制」成为新前沿,Distributed Attacks 类研究将催生新防护标准;Agent 评测生态:SkillCoach / EvoPolicyGym / AgenticSTS / AgenticDataBench 等多基准共同推动评测从单点向多维矩阵演化;范式突破:Program-as-Weights 如果可复现,将挑战「权重 = 训练后参数」的基础假设,影响可解释性 / 可验证性 / 可组合性研究方向;世界模拟:WorldDirector + 持久动态记忆与 agent 时代知识管理基础设施方向一致。
53 分 Program-as-Weights HF 热度
39 分 EvoPolicyGym HF 热度
今日研究层呈现三个交叉应证的方向:① Agent 安全:Distributed Attacks in Persistent-State AI Control 与 Anthropic Fable 5 cyber safeguards 同期出现,说明「持续态 AI 控制」是 AI 安全的新前沿——传统 LLM 安全关注单次 prompt-response,但 agent 时代的「持续态 AI」(长时间运行、跨 session 维护状态)引入了全新攻击面;② Agent 评测:SkillCoach(self-evolving rubrics)+ EvoPolicyGym(策略自主进化评测)+ AgenticSTS(有界记忆测试床)+ AgenticDataBench(数据智能体基准)四篇同期出现,说明「Agent 评测」正从单点基准向多维评测矩阵演化,呼应开发者社区的 skill eval 瓶颈讨论;③ 范式突破:Program-as-Weights 提出「程序即权重」的新范式,如果可复现,将挑战传统「权重 = 训练后参数」的基础假设——可能催生可解释性 / 可验证性 / 可组合性更强的神经网络架构。WorldDirector 把「持久动态记忆」引入世界模拟器,与 Anthropic Fable 5 内部 Obsidian 知识图谱 + LangChain OpenWiki 的「agent 持久记忆」方向形成学术与工业的共振。
接下来看:Program-as-Weights 是否被独立实验室复现,以及「程序即权重」范式在主流模型架构中的可行性 / Distributed Attacks 论文的具体攻击模型与 Anthropic CJS 框架是否形成互补
Skill eval 是 2026 年被低估的瓶颈:mattpocockuk「Evals on skills are hard」 + steipete EffectTS skill 蒸馏 + SkillCoach 自演化评分——交叉印证 skill 评测生态正在成型
Total TypeScript/AI Hero 作者 mattpocockuk 7-3 推文(168 赞):「'Evals on skills are hard' 是今年的 understatement」;配合 steipete(Peter Steinberger)上下文:要给 EffectTS 做 skill,先从「最新一代 agent 搞不定 Effect 哪些点」蒸馏出来就完成 80%,但给 skill 做 eval 很难。配合 arXiv SkillCoach 论文(self-evolving rubrics)与 LangChain OpenWiki(agent 文档)+ self-learning-skills GitHub(789★)共同印证:2026 年 7 月 Agent skill 生态的最大瓶颈已从「skill 编写」转向「skill 评测」。
mattpocockuk / steipete 工业痛点 + SkillCoach 学术方向 + self-learning-skills 开源社区 + LangChain OpenWiki 文档工业化,四方交叉印证「skill eval 是 2026 年 Agent 工程化的最大瓶颈」;Agent 工业化进入「评测驱动」阶段。
Agent 工程化:Skill eval 是「最后一公里」难题,谁先解决「skill 在什么场景下可靠」的问题,谁就能占据基础设施位置;Agent 评测生态:SkillCoach 等学术方向可能催生 skill 评测基准(Beyond EvalSigEval 等);中型 AI 公司:Skill eval 投入将成为 Agent 商业化的关键门槛,与 LangChain OpenWiki 类工具结合形成差异化竞争;开源社区:self-learning-skills + LangChain OpenWiki + SkillCoach 共同推动 skill 评测基础设施开源化。
mattpocockuk 168 赞 / steipete(quoted) mattpocockuk 与 steipete 互动量
12 分 SkillCoach HF 热度
Skill eval 瓶颈是 Agent 工业化时代的「最后一公里」难题。一个完整 skill 包含三个环节:① 编写(知道要写什么 skill)② 蒸馏(把模糊的人类知识变成结构化指令)③ 评测(知道这个 skill 在不同场景下的成功率)。过去 6 个月,GitHub 上 agent skill 仓库数量爆发(self-learning-skills 789★ / video-production-skills 500★ / Pluviobyte 等),skill 编写环节已基本解决;skill 蒸馏环节靠 trq212 unknown unknowns + Boris Cherny loop engineering 方法论也在快速推进。但 skill 评测环节始终缺位——给一个 skill 写 eval 远比写 skill 本身难,原因有三:① skill 的成功标准因场景而异(同一 skill 在代码生成 vs 文档生成场景下成功标准完全不同);② skill 评测需要 baseline 模型对比(而 baseline 模型本身在快速迭代);③ skill 评测的成本极高(需要大规模 human annotation 或 sandbox 环境)。SkillCoach 论文提出 self-evolving rubrics 是学术方向,mattpocockuk + steipete 的实践吐槽是工业痛点,LangChain OpenWiki + self-learning-skills 等开源项目也在反向推动 skill 评测基础设施成型。预计未来 6-12 个月,「skill 评测基准」会成为 Agent 工程化的下一个竞争点——谁先解决「我的 skill 在什么场景下可靠」的问题,谁就能在 agent 工业化时代占据基础设施位置。
接下来看:LangChain / Anthropic / OpenAI / Google DeepMind 是否在 6-12 个月内推出官方 skill eval 工具 / SkillCoach 等学术方向是否被商业平台采纳(self-evolving rubrics 工程化)
Google DeepMind Discovery 团队发布 COrigami:蛋白质等领域 co-design 端到端协同设计管线
@GoogleDeepMind 7-3 转推 DeepMind Discovery 团队最新工作 COrigami:一条端到端协同设计管线(用于蛋白质等领域的 co-design)。原帖被截断,论文细节(arXiv ID / 实验数据 / 应用案例)需进一步跟进。
DeepMind Discovery 团队继 AlphaFold 之后的下一个生物学方向,co-design 把 AI 在生物学的能力从「理解」推进到「设计」;但目前为单条转推,细节待补全。
AI for Science:co-design 成为下一个前沿,从「单向预测」走向「结构-功能协同优化」;制药行业:蛋白质药物 / 酶设计 / 抗体筛选的 AI 能力提升;合成生物学:代谢通路设计 / 生物制造的 AI 协同设计;材料科学:蛋白质基材料 / 自组装结构的新设计范式;DeepMind:AlphaFold 之后的下一个生物学战略方向。
蛋白质等领域的 co-design COrigami 应用领域
Co-design(协同设计)是 AI for Science 的下一个前沿——传统 AI for Science 多关注「给定结构预测性质」或「给定性质生成结构」的单向任务,co-design 把这两个方向融合,让结构与性质同时优化。COrigami 选择蛋白质作为首个应用领域,这是 DeepMind 在 AlphaFold 系列之后的下一个生物学方向——AlphaFold 解决了「蛋白质结构预测」,COrigami 解决「蛋白质结构-功能协同设计」,等于把 AI 在生物学的能力从「理解」推进到「设计」。这一方向如果成熟,将直接影响:① 制药行业(蛋白质药物 / 酶设计 / 抗体筛选);② 合成生物学(代谢通路设计 / 生物制造);③ 材料科学(蛋白质基材料 / 自组装结构)。需要注意 caveat:目前信息仅来自 GoogleDeepMind 单条转推,原帖截断,论文细节(arXiv ID、baseline 对比、应用案例)均待补全,本条作为「方向性信号」记录而非完整研究报道。
接下来看:COrigami 论文的 arXiv 链接 / 实验数据 / 与 AlphaFold 的关系 / COrigami 在蛋白质设计、酶工程、抗体筛选的具体应用案例
豆包 GEO skill 开源升级版:网页 + 手机 App 双端采集 / 截图 + XML 全记录 / 不绕登录——@yaojingang 7-3 发布
@yaojingang 7-3 发布并开源升级版豆包 AI GEO(生成式引擎优化)采集 / 清洗 / 分析 skill(获 61 赞)。三大能力:① 网页端(OpenCLI)+ 手机 App(Android Studio AVD + Appium UiAutomator2)双端采集,同一批关键词可并行取两端结果;② 手机端不只截答案,而是把截图、XML、引用资料卡片、引用状态、引用次数全记录;③ 统一输出 doubao-crawl.json / summary.json / 结构化 Markdown / Excel / Kami 风格 HTML,后续 GEO 分析共用一套模板。明确边界:不绕登录、不绕验证码、不抓隐藏接口、不做账号池——只服务低频研究 / 教学 / 可复核证据采集。GitHub + 演示报告均公开。
豆包 GEO skill 开源升级版是 GEO 赛道基础设施层关键进展,「双端采集 + 全字段记录 + 明确边界」三点设计符合学术与品牌方研究规范;可能催生 GEO 工具「合规版 vs 灰产版」分化。
GEO 赛道:工具层从零散爬虫走向标准化开源,豆包 GEO skill 成为国内首批合规版;学术研究:可复用工具降低 GEO 学术研究门槛;品牌方:可系统化监测 AI 回答中的品牌可见度与引用情况;字节跳动 / 豆包:开源工具降低 GEO 研究门槛,可能反向推动豆包在 GEO 可见度上的优化;合规边界:明确「不绕登录 / 不绕验证码 / 不抓隐藏接口」为 GEO 工具划定合规线。
双端采集 / 全字段记录 / 结构化输出 豆包 GEO skill 三能力
不绕登录 / 不绕验证码 / 不抓隐藏接口 / 不做账号池 明确合规边界
豆包 GEO skill 开源是 GEO(Generative Engine Optimization,生成式引擎优化)赛道基础设施层的关键进展。GEO 是 2026 年新兴的 SEO 变体——传统 SEO 优化搜索结果排名,GEO 优化生成式 AI 回答中的内容引用。豆包(字节跳动旗下 AI 助手)是国内 GEO 的关键战场之一,豆包 GEO skill 的开源等于把「如何系统性采集豆包 AI 回答」这一关键能力沉淀为可复用工具。该 skill 的三个亮点:① 双端采集(网页 + 手机 App)避免了单端偏差,学术严谨性高;② 手机端全字段记录(截图 + XML + 引用卡片 + 引用次数)让证据可复核,符合学术研究规范;③ 明确边界(不绕登录 / 不绕验证码 / 不抓隐藏接口)避免合规风险,定位为「低频研究 / 教学 / 可复核证据采集」而非商业爬虫。这是国内 AI 工具层少有的「研究友好 + 合规友好」开源案例,值得其他 GEO 工具(Perplexity GEO / Kimi GEO / 文心一言 GEO 等)跟进。预计未来 12 个月,GEO 工具层会出现「合规版 vs 灰产版」的明确分化,合规版成为学术与品牌方研究 AI 品牌可见度的标配。
接下来看:豆包 GEO skill 在 30 天内是否被 GEO 学术研究者广泛采用 / 其他 AI 助手 GEO 工具(Perplexity / Kimi / 文心一言 / ChatGPT)是否跟进开源
PM 视角:AI Agent 网页布局三栏范式(右侧 Agent + 中间内容 + 左侧菜单)——@vista8 提示把设计规范做成模型可读参考而非一次性 prompt
@vista8 7-3 PM 视角观察:现在很多网页布局是「右侧 AI Agent,中间内容,左侧菜单」,分栏需要支持拖拽和隐藏、合理利用空间。难点:用自然语言很难描述清楚这些交互细节。可行解法:沉淀一些交互规范 / 标准文档,供 AI 学习参考——把设计规范变成模型可读的参考材料,而不是依赖一次性 prompt。配 4 张布局示意。
PM 视角对 AI Agent UI 范式的早期洞察,三栏布局正在成为默认范式但设计难题未解决;提出「设计规范 agent 友好化」思路,与 LangChain OpenWiki + loop engineering 方向一致。
AI Agent UI 范式:三栏布局(右侧 AI + 中间内容 + 左侧菜单)成为默认;设计工具:Figma / Framer / v0 等可能在 6-12 个月内推出「agent 可读 + 人类可读」双版本设计规范;设计师:需要学习「agent 友好设计规范」,设计产出从「人类可读文档」扩展到「机器可读参考」;AI 辅助设计:从「一次性 prompt 生成 UI」走向「agent 检索设计规范 + 生成 UI」,质量与一致性提升。
右侧 AI Agent + 中间内容 + 左侧菜单 三栏布局结构
这是 PM 视角对 AI Agent UI 范式的早期洞察,信号意义大于方案成熟度。三栏布局(右侧 AI + 中间内容 + 左侧菜单)正在成为 AI Agent 类产品的默认布局范式——Notion AI、Linear AI、Coda AI、Arc Browser AI 等都在往这个方向走。但这一布局有几个未解决的设计难题:① 拖拽 / 隐藏的分栏交互细节很难用自然语言描述,一次性 prompt 难以覆盖;② 三栏在不同屏幕尺寸下的响应式适配;③ AI Agent 与主体内容的视觉层级冲突;④ 用户在不同任务下对「AI 可见性」的需求不同(简单任务希望 AI 收起,复杂任务希望 AI 展开)。@vista8 提出的解法是「把设计规范做成模型可读参考材料」,呼应 LangChain OpenWiki 的「not for humans, for agents」思路——设计规范也需要「agent 友好版本」,让 AI 在生成 UI 时有结构化参考而非依赖自然语言理解。这与 loop engineering 的 Memory Update Loop 范式也是一致的:设计规范不再是静态文档,而是动态可被 agent 检索的参考。预计未来 6-12 个月,「agent 友好设计规范」(machine-readable design system)会成为设计工具(Figma / Framer / v0 等)的下一个竞争点——谁能提供「agent 可读 + 人类可读」双版本设计规范,谁就能在 AI 辅助设计赛道占据基础设施位置。
接下来看:Figma / Framer / v0 等设计工具是否在 6-12 个月内推出「agent 友好设计规范」 / 三栏布局是否在 Notion AI / Linear AI / Arc Browser AI 等产品中成为默认
推特上在讨论什么
ELI5 总结 trq212 新文章:"Claude 已不再是瓶颈,你没告诉它的事才是"。提示词是地图,代码库才是真实的路——你没提到的坑,Claude 都会自己脑补,任务越大脑补越多。提出 agentic 编码的核心是缩小"提示词与代码实情"的差距。4 种 unknown:你说的、你知道还没决定的、明显到懒得写的、没考虑到的。8 条具体方法:盲点扫描让 Claude 找你的 unknown unknowns;用 4 个差异极大的 HTML 原型替代一次错误的实现;让 Claude 一次一个问题采访你,从能改变架构的答案开始;无法描述时直接给参考代码(另一种语言也行);计划先列出最容易改动的数据模型/接口/UX;实施时维护 implementation-notes.md 记录每次偏离;完成后让 Claude 出题考你,直到通过再合并。
trq212:Thariq 发布的新文章链接(原文为 https://t.co/hPiZr1kG7r,围绕 agentic coding 时代提示词与上下文的边界)原帖 ↗
Anthropic 员工(bio: claude code + cowork @anthropicai,前 Dagster/Scale)发布:"这个长周末你们在用 Fable 5 做什么?在评论里给我看 demo!" 引发 101 条高密度回复社区共建。配合官方账号同周 re-launch Fable 5,Anthropic 正在通过 cowork 形态推动 Fable 5 进入开发者长周末实践。
Claude (claudeai):官方账号 7 月 1 日发布:Fable 5 is back(配演示视频 poster)原帖 ↗
解读疑似 Anthropic 内部 Fable 5 Prompt 结构,核心观点:好 Prompt 不是更长更复杂,而是把任务边界讲清楚。结构 5 部分 — Context(背景)、Request(要做什么)、Output Format(怎么交付)、Constraints(哪些不能越界)、Checkpoint(何时停下来问)。重点在 Checkpoint,只三种情况暂停:①不可逆操作 ②任务范围变化 ③需要用户提供信息;其他情况模型应继续完成、最后再汇报。结论:模型越强越不需要堆废话,需要的是目标、边界、验收标准。
原帖 ↗"我不再手动 prompt Claude Code 了。我让循环自动 prompt Fable,我的工作就是写循环。这是 Boris Cherny 的方法(loop engineering),效果非常强。" 配图为《AI Edge》团队提供的 loop engineering 入门指南封面。核心范式转变:从 prompt engineering 到 loop engineering——开发者角色从"提问者"变成"循环设计者"。
AI Edge (aiedge_):loop engineering 新手入门指南(链接 https://t.co/kAZAkoPphh,无原文)原帖 ↗
发现:Anthropic 内部使用一个超大规模 Obsidian 知识图谱管理公司知识。规模数据:8893 个节点、4729 条链接,从远处看像知识星系。结构化模块包括 Marginalia Collection、Glossary Backbone、Comparative Grammar MOC、Oral History Transcripts、Field Notes Archive 等,中心 Master Index 串联 9000+ 文档。含义:Anthropic 把 Obsidian + 复杂知识图谱用到企业级,信号指向 second brain / 知识管理系统的实战化方向。
CryptoTied:前一天推文:18 分钟用 Claude Code + Sonnet 5 做出获奖级网站教程(配演示视频)原帖 ↗
在 SWE 评测基准 APEX-SWE 上放出 Fable 5 重发布版的成绩,数字: Fable 5(6 月原版)65.5% Pass@1;Fable 5(7 月重发布版)54.8% Pass@1;Claude Opus 4.8 = 45.3% Pass@1。结论:re-release 比原版低约 10 个点,但仍超 Opus 4.8 超过 9 个点。不是简单的"缩水",可能是 prompt/对齐调整后的可生产版本。
原帖 ↗PM 视角观察:现在很多网页布局是"右侧 AI Agent,中间内容,左侧菜单",分栏需要支持拖拽和隐藏、合理利用空间。难点:用自然语言很难描述清楚这些交互细节。可行解法:沉淀一些交互规范/标准文档,供 AI 学习参考——把设计规范变成模型可读的参考材料,而不是依赖一次性 prompt。配 4 张布局示意。
原帖 ↗发布并开源升级版豆包 AI GEO 采集/清洗/分析 skill。三大能力:①网页端(OpenCLI)+ 手机 App(Android Studio AVD + Appium UiAutomator2)双端采集,同一批关键词可并行取两端结果;②手机端不只截答案,而是把截图、XML、引用资料卡片、引用状态、引用次数全记录;③统一输出 doubao-crawl.json / summary.json / 结构化 Markdown / Excel / Kami 风格 HTML,后续 GEO 分析共用一套模板。明确边界:不绕登录、不绕验证码、不抓隐藏接口、不做账号池——只服务低频研究/教学/可复核证据采集。GitHub + 演示报告均公开。
原帖 ↗解读 LangChain 新开源项目 OpenWiki(477 star、MIT 协议):一个 CLI,自动为代码库生成文档并持续维护;设计目标"not for humans, for agents"——让 agent 写、agent 维护、agent 参考。安装 `npm install -g openwiki`;用法:openwiki --init 配置模型与 API key → 生成文档到 openwiki/ → 自动在 AGENTS.md/CLAUDE.md 追加提示告知 coding agent 参考。预置模型支持 GLM 5.2、Kimi K2.6、Sonnet 5;provider 支持 OpenRouter、Fireworks、Baseten、OpenAI、Anthropic;另含 GitHub Action 每天自动开 PR 更新文档,目录存在走增量、不存在则创建。与 Karpathy LLM Knowledge Base 概念、EXM7777 Agent OS "memory in files" 原则、loop pattern 中的 Memory Update Loop 形成交叉应证。
GitHub langchain-ai/openwiki:GitHub 仓库 langchain-ai/openwiki,卡片元数据:title=GitHub - langchain-ai/openwiki: OpenWiki is a CLI that writes and maintains agent documentation for...原帖 ↗
Total TypeScript/AI Hero 作者 mattpocock:"'Evals on skills are hard' 是今年的 understatement(轻描淡写)"。配合 steipete 的上下文:要给 EffectTS 做 skill,先从"最新一代 agent 搞不定 Effect 哪些点"蒸馏出来就完成 80%,但给 skill 做 eval 很难。一句话揭示:2026 年 7 月 Agent skill 生态的最大瓶颈已从编写转向评测。
Peter Steinberger (steipete):给 EffectTS 做 skill,先蒸馏"最新一代 agent 处理 Effect 的关键不到位点"就能完成 80%,但 skills 的 evals 很难做。原帖 ↗