Topic Timeline

#SkillCoach

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

观点观察 2026-07-04 · 周六重要度 3/5

Skill eval 是 2026 年被低估的瓶颈:mattpocockuk「Evals on skills are hard」 + steipete EffectTS skill 蒸馏 + SkillCoach 自演化评分——交叉印证 skill 评测生态正在成型

Total TypeScript/AI Hero 作者 mattpocockuk 7-3 推文(168 赞):「'Evals on skills are hard' 是今年的 understatement」;配合 steipete(Peter Steinberger)上下文:要给 EffectTS 做 skill,先从「最新一代 agent 搞不定 Effect 哪些点」蒸馏出来就完成 80%,但给 skill 做 eval 很难。配合 arXiv SkillCoach 论文(self-evolving rubrics)与 LangChain OpenWiki(agent 文档)+ self-learning-skills GitHub(789★)共同印证:2026 年 7 月 Agent skill 生态的最大瓶颈已从「skill 编写」转向「skill 评测」。

Skill eval 瓶颈是 Agent 工业化时代的「最后一公里」难题。一个完整 skill 包含三个环节:① 编写(知道要写什么 skill)② 蒸馏(把模糊的人类知识变成结构化指令)③ 评测(知道这个 skill 在不同场景下的成功率)。过去 6 个月,GitHub 上 agent skill 仓库数量爆发(self-learning-skills 789★ / video-production-skills 500★ / Pluviobyte 等),skill 编写环节已基本解决;skill 蒸馏环节靠 trq212 unknown unknowns + Boris Cherny loop engineering 方法论也在快速推进。但 skill 评测环节始终缺位——给一个 skill 写 eval 远比写 skill 本身难,原因有三:① skill 的成功标准因场景而异(同一 skill 在代码生成 vs 文档生成场景下成功标准完全不同);② skill 评测需要 baseline 模型对比(而 baseline 模型本身在快速迭代);③ skill 评测的成本极高(需要大规模 human annotation 或 sandbox 环境)。SkillCoach 论文提出 self-evolving rubrics 是学术方向,mattpocockuk + steipete 的实践吐槽是工业痛点,LangChain OpenWiki + self-learning-skills 等开源项目也在反向推动 skill 评测基础设施成型。预计未来 6-12 个月,「skill 评测基准」会成为 Agent 工程化的下一个竞争点——谁先解决「我的 skill 在什么场景下可靠」的问题,谁就能在 agent 工业化时代占据基础设施位置。

研究论文 2026-07-04 · 周六重要度 3/5

arXiv 今日亮点合集:Program-as-Weights 新范式 + 持续态 AI 控制分布式攻击 + SkillCoach 自演化评分 + WorldDirector 世界模拟器——研究层 5 篇交叉印证

arXiv 与 Hugging Face papers 今日出现多篇高价值研究:① Program-as-Weights: A Programming Paradigm for Fuzzy Functions(arXiv 2607.02512,HF 53 分)——将程序作为神经网络权重的新范式,模糊函数(fuzzy functions)可通过程序直接编码为网络权重;② Distributed Attacks in Persistent-State AI Control(arXiv 2607.02514)——持续态 AI 控制系统中的分布式攻击,直接对应 Anthropic Fable 5 cyber safeguards 关注的安全场景;③ SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use(arXiv 2607.01874,HF 12 分)——Agent 技能使用的自演化评分方法,与 mattpocockuk 提出的 skill eval 瓶颈直接相关;④ WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory(arXiv 2607.02517,HF 16 分)——可控世界模拟器 + 持久动态记忆;⑤ EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments(arXiv 2607.02440,HF 39 分)——智能体策略自主进化的交互评测环境;另 AgenticSTS / AgenticDataBench / Multi-Resolution Flow Matching 等亦值得跟踪。

今日研究层呈现三个交叉应证的方向:① Agent 安全:Distributed Attacks in Persistent-State AI Control 与 Anthropic Fable 5 cyber safeguards 同期出现,说明「持续态 AI 控制」是 AI 安全的新前沿——传统 LLM 安全关注单次 prompt-response,但 agent 时代的「持续态 AI」(长时间运行、跨 session 维护状态)引入了全新攻击面;② Agent 评测:SkillCoach(self-evolving rubrics)+ EvoPolicyGym(策略自主进化评测)+ AgenticSTS(有界记忆测试床)+ AgenticDataBench(数据智能体基准)四篇同期出现,说明「Agent 评测」正从单点基准向多维评测矩阵演化,呼应开发者社区的 skill eval 瓶颈讨论;③ 范式突破:Program-as-Weights 提出「程序即权重」的新范式,如果可复现,将挑战传统「权重 = 训练后参数」的基础假设——可能催生可解释性 / 可验证性 / 可组合性更强的神经网络架构。WorldDirector 把「持久动态记忆」引入世界模拟器,与 Anthropic Fable 5 内部 Obsidian 知识图谱 + LangChain OpenWiki 的「agent 持久记忆」方向形成学术与工业的共振。