Topic Timeline

#mattpocockuk

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

观点观察 2026-07-04 · 周六重要度 3/5

Skill eval 是 2026 年被低估的瓶颈:mattpocockuk「Evals on skills are hard」 + steipete EffectTS skill 蒸馏 + SkillCoach 自演化评分——交叉印证 skill 评测生态正在成型

Total TypeScript/AI Hero 作者 mattpocockuk 7-3 推文(168 赞):「'Evals on skills are hard' 是今年的 understatement」;配合 steipete(Peter Steinberger)上下文:要给 EffectTS 做 skill,先从「最新一代 agent 搞不定 Effect 哪些点」蒸馏出来就完成 80%,但给 skill 做 eval 很难。配合 arXiv SkillCoach 论文(self-evolving rubrics)与 LangChain OpenWiki(agent 文档)+ self-learning-skills GitHub(789★)共同印证:2026 年 7 月 Agent skill 生态的最大瓶颈已从「skill 编写」转向「skill 评测」。

Skill eval 瓶颈是 Agent 工业化时代的「最后一公里」难题。一个完整 skill 包含三个环节:① 编写(知道要写什么 skill)② 蒸馏(把模糊的人类知识变成结构化指令)③ 评测(知道这个 skill 在不同场景下的成功率)。过去 6 个月,GitHub 上 agent skill 仓库数量爆发(self-learning-skills 789★ / video-production-skills 500★ / Pluviobyte 等),skill 编写环节已基本解决;skill 蒸馏环节靠 trq212 unknown unknowns + Boris Cherny loop engineering 方法论也在快速推进。但 skill 评测环节始终缺位——给一个 skill 写 eval 远比写 skill 本身难,原因有三:① skill 的成功标准因场景而异(同一 skill 在代码生成 vs 文档生成场景下成功标准完全不同);② skill 评测需要 baseline 模型对比(而 baseline 模型本身在快速迭代);③ skill 评测的成本极高(需要大规模 human annotation 或 sandbox 环境)。SkillCoach 论文提出 self-evolving rubrics 是学术方向,mattpocockuk + steipete 的实践吐槽是工业痛点,LangChain OpenWiki + self-learning-skills 等开源项目也在反向推动 skill 评测基础设施成型。预计未来 6-12 个月,「skill 评测基准」会成为 Agent 工程化的下一个竞争点——谁先解决「我的 skill 在什么场景下可靠」的问题,谁就能在 agent 工业化时代占据基础设施位置。