'Loop engineering' 走热:Anthropic 内部 >90% 工程师已用 self-improving loops 造 agent
>90% 工程师用 self-improving loops 造 agent——单一信源、关键词未定义;但 OpenAI 一手数据显示 agent 跑几小时已是常态。
- agent 构建的杠杆点从'选哪个模型'挪向'怎么造循环':公式 Agent→harness→loops→memory 把散落在 prompt/工具/上下文管理里的活儿收拢成一个可工程化对象
- agent 运行时长从'几次工具调用'升级到'数小时无人盯防':OpenAI 25.6% 用户做过超 8 小时请求、第 99 百分位单日 >60 小时 agent 轮次;Anthropic 称其 loop 跑数小时不烧数百美元(单源)
- 讨论焦点从'loop 能不能跑'转向'loop 会不会学':@OkhayIea 指出经验能否跨周期存活取决于落地位置(context/外部 memory/权重/代码),这正是 self-improving 最硬也最易被滥用的地方
6 月最后一周,“loop engineering(循环工程)“成了 AI 圈的高频词。它不是凭空冒出来的——同一周里,一条尚未被官方确认的爆料、一篇社区综述、一份前沿实验室的一手数据,把同一件事从不同侧面推到了台前。X 用户 @0xCodez 转述 Anthropic Managed Agents Lead 在一场 40 分钟播客中的说法:Anthropic 内部已有 >90% 的工程师在用 self-improving loops(自我改进循环)构建 agent,预计 4–6 个月内达到 100%;其 agentic loop 可以连续运行数小时而不花掉数百美元;他还给出现代 agent 的公式 Agent→harness→loops→memory。@OkhayIea 同期发”loop engineering”综述,核心判断是「能整夜运行的 loop 不等于会学习的 loop——经验能否跨周期存活,取决于它落在哪」;@369Serena 则把这套思路落到写作上,给出六步 Loop(Define→Research→Outline→Draft→QA→Polish)。
如果那个判断成立,意味着 agent 构建的主战场已经从”选哪个模型”挪到了”怎么造循环”。但那个 >90% 目前只有一条 X 转述、没有官方背书——所以这篇文章要做的,不是替它背书,而是把它放进已有的证据里看:loop engineering 到底在说什么,独立数据撑不撑得起”agent 跑几小时是常态”。
一个被命名的活儿:Agent→harness→loops→memory
“loop engineering”这个词能立住,不是靠那条爆料,而是因为它给一件早就发生的活儿命了名。要把这件事说清楚,得回到 Anthropic 自己给 agent 下的定义。2024 年 12 月 19 日的《Building Effective Agents》里,作者(Erik S.、Barry Zhang)把 agent 写成一句话:“LLMs using tools based on environmental feedback in a loop”——在循环里、依据环境反馈用工具的 LLM。他们刻意区分了 workflow(走预设代码路径)和 agent(模型自己动态指挥流程),并指出 agent 的实现”往往很直白”,真正复杂的是围绕它的工具接口(ACI)、检索与记忆。
这正好对应爆料里那个公式的拆解:
- Agent 是模型本身;
- **harness(外壳)**是包裹模型的代码——工具定义、调度、停止条件、错误恢复;
- loops 是它跑起来的循环;
- memory 是经验落地的位置。
“loop engineering”作为名词的价值,正在于把过去散落在 prompt 工程、工具设计、上下文管理里的活儿,收拢成一个能被工程化的对象。命名本身是生产力:有了这个词,经验落在哪、跑多久、烧多少钱、会不会学,这些原本各干各的问题才有了共同的坐标系。Anthropic 2025 年 6 月《How we built our multi-agent research system》里那句**「原型到生产的差距,往往比预想的大(the gap between prototype and production is often wider than anticipated)」**,放在 loop engineering 越热的当下尤其值得记住——越是给一件事命了名,越要警惕把命名当成了结论。
那个 90%,和一个没定义的词
先说信源。**“>90% 工程师用 self-improving loops”**这句话的全部依据,是 X 用户 @0xCodez 对一场播客的转述,被引述者是 Anthropic 的 Managed Agents Lead。没有播客原文链接、没有官方博客、没有第三方复述,Anthropic 也未确认。这是典型的”单一二手信源”——方向性有意思,但不能当精确战报读。
比信源更值得追问的,是”self-improving loops”这个词本身没定义。它至少可能指三件含金量天差地别的事:(1)循环内的 agent 根据环境反馈自我纠错——这是 Anthropic 2024 年底就定义过的标准 agentic loop,门槛最低;(2)循环把经验写回 memory、下一个周期复用——这才是”跨周期自我改进”,门槛高得多;(3)循环改写自己的工具或 prompt——Anthropic 2025 年 6 月的多 agent 系统里有过实例。爆料没有区分这三档。所以对这条爆料,合理的态度是:把 >90% 当风向标,不当数据;把”self-improving”当待定义的词,不当结论。
@OkhayIea 的综述恰好把火力对准了这一环,判断是**「能整夜运行的 loop ≠ 会学习的 loop」:一个 loop 可以稳定跑一整夜做大量工具调用,但如果它这一夜积累的经验在下一轮循环开始时就丢了,那它只是”勤奋”,不是”在变强”。经验能不能跨周期存活,取决于它落在哪**——落在上下文窗口里(会被 20 万 token 截断冲掉)、落在外部 memory 里(能检索但可能失真)、落进微调权重里(最持久但最贵)、还是落进 harness 代码里(最可控但最不”智能”)。这是 loop engineering 真正的硬骨头,也是”self-improving”四个字最容易被滥用的地方。
Anthropic 自己的多 agent 系统给出了这条硬骨头的现实样本:lead agent 必须把研究计划写进 memory,因为上下文超过 20 万 token 会被截断——这正是”经验落在哪”的工程约束;他们还做了一个工具测试 agent,让它在拿到有缺陷的 MCP 工具后自己试用、再重写工具描述,改完后后续 agent 的任务完成时间下降 40%。这是”循环改写自己的工具”那一档的 self-improving,有据可查,但它和”loop 跑两周后整体变强”之间,还隔着很远。
@OkhayIea 顺带抛出的另一句流行话是**「你不是在选模型,而是在选 benchmark」——当你把 loop 工程化之后,决定成败的是你拿什么任务去衡量它,而不是底层模型的名字。这个论点漂亮,但有一个反证来自 Anthropic 自己:在多 agent 研究系统里,他们发现升级到 Claude Sonnet 4 带来的性能提升,大于把 Claude Sonnet 3.7 的 token 预算翻倍**。换句话说,模型档位仍是巨大的乘数,“选 benchmark 而非选模型”在模型快速迭代的当下,只能说对了一半。
背景:Anthropic 多 agent 系统的 token 经济性与自我改进实例(2025-06)
- token 是性能主驱动:单个 agent 相对 chat 约消耗 4× token,多 agent 系统约 15×;token 使用量本身解释了 80% 的性能方差。
- memory 跨截断存活:lead agent 把研究计划写进 memory,因为上下文超过 20 万 token 会被截断——这正是 @OkhayIea 说的”经验落在哪”的现实约束。
- 一个真实的 self-improving 实例:他们做了一个工具测试 agent,让它在拿到有缺陷的 MCP 工具后自己试用、再重写工具描述,改完后后续 agent 的任务完成时间下降 40%。这是”循环改写自己的工具”那一档的 self-improving,有据可查。
- 原话提醒:「原型到生产的差距,往往比预想的大」(the gap between prototype and production is often wider than anticipated)——loop engineering 越热,这句越值得记住。
撑得住的那一面:agent 长跑已是生产事实
那条爆料里”agentic loop 跑数小时不烧几百美元”的措辞,单看是孤证。但同周 OpenAI 发的《How agents are transforming work》(2026-06-25)用自家内部数据,从另一个方向把”agent 长时间自主运行”这件事钉死了——而且这不是社区传闻,是前沿实验室的一手统计:
| 指标 | 数值 | 来源 |
|---|---|---|
| Codex 占 OpenAI 内部每周输出 token | 99.8% | OpenAI 官方博客 |
| OpenAI 28 天活跃用户中使用 Codex 的占比 | 97.9% | OpenAI 官方博客 |
| 做过 ≥1 次预估超 8 小时人工工作量的 Codex 请求的个人用户占比 | 25.6% | OpenAI 官方博客 |
| 第 99 百分位用户单日产生的 Codex agent 轮次时长 | >60 小时(跨多个并行 agent) | OpenAI 官方博客 |
| 自 2025 年 8 月以来非开发者用户增长(个人/组织) | 137× / 189× | OpenAI 官方博客 |
| Anthropic 多 agent 系统相对 chat 的 token 消耗 | ~15× | Anthropic 工程博客 |
OpenAI 的措辞值得原样引用:「Agentic AI 把知识工作的单位,从单次交互变成了委派的、长周期的任务……Agent 可以独立运行数分钟到数小时,同时编排工具调用、与环境交互、向解法迭代。」 到 2026 年 6 月,OpenAI 内部最重度的一批用户,一天就调度出超过 60 小时的 agent 工作量,分散在多个并行 agent 上;连法务、招聘这些非技术部门,也都在 4 月前后把 Codex 用成了主力 AI 工具。自 2025 年 8 月以来,非开发者用户在个人端涨了 137 倍、组织端 189 倍——agent 不再是工程师的专利。
把这些和 Anthropic 侧的信号叠在一起,会得到一个比”90% 工程师在用 loop”扎实得多的结论:agent 长时间自主循环,已经从前沿实验室的内部标配,变成可统计的生产事实。 至于”不烧几百美元”那个成本口径,仍是单源、仍待核实,但方向上和 Anthropic”高价值任务才用得起多 agent”的判断一致——loop 经济性的真正变量不是单价,而是单个任务烧多少钱、产出值不值。
“Loop engineering”被讨论,真正的价值不在那个抓眼球的 90%——它单一来源、未定义关键词、没有官方背书,拿来当头条数字是不负责任的。它的价值在于:社区终于把一件早就发生的事说出了名字。agent 不是”更聪明的聊天框”,而是”被外壳(harness)包着、在循环(loops)里跑、靠 memory 活过下一个周期”的模型——这套 Agent→harness→loops→memory 的拆分,把过去散落在 prompt 工程、工具设计、上下文管理里的活儿,收拢成一个可以被工程化的对象。命名本身就是生产力:一旦有了”loop engineering”这个词,经验落地位置(context / 外部 memory / 权重 / 代码)、运行时长与成本的权衡、跨周期学习质量,这些原本各干各的问题,就有了共同的坐标系。
顺着这套坐标系往下推,有两个判断值得说清楚,也必须把 caveat 留在边上。“self-improving” 是当下最被滥用的词——一个能在循环里自我纠错的 agent,和一个能把经验写回 memory、在下一周期真正变强的 agent,工程难度差一个数量级,前者 Anthropic 2024 年底就讲清楚了,后者到今天仍是开放问题。@OkhayIea 那句「能跑 ≠ 会学」一针见血:大量号称”自我改进”的 loop,其实只是勤奋地重复,经验要么被上下文截断冲掉,要么存在外部 memory 里逐渐失真。在有人拿出”同一 loop 跑两周后任务成功率单调上升”的曲线之前,对一切 self-improving 的宣称都该保持怀疑。与此相关的是另一句流行话——“你不是在选模型,而是在选 benchmark”——漂亮,但只对了一半:Anthropic 自己的数据显示,升一档模型比翻倍 token 预算更值,在模型仍在快速迭代时把模型选择说成次要,是 loop 工程师的自豪感盖过了事实。
这两件事其实指向同一个更稳的判断:模型决定下限,loop 决定上限,benchmark 决定你看见哪一者。 loop engineering 不是噱头,它是 agent 从”调 API”走向”造系统”的必经一跃,OpenAI 和 Anthropic 的一手数据都证明这一跃已经在发生;只是请把那个 90% 当作引子,而不是结论——这个行业最缺的,从来不是漂亮的数字,而是能验证”循环真的在变强”的度量。
接下来看什么
- 那个 90% 的落地:Anthropic 是否官方确认或否认、是否放出播客原文/转写;以及”self-improving loops”在官方语境里到底指哪一档(循环内纠错 / 经验回写 memory / 改写自身工具)。
- 跨周期学习曲线:有没有团队能拿出”同一 loop 连续运行数周后,任务成功率/单位成本单调改善”的公开数据——这是区分”勤奋的 loop”和”会学的 loop”的唯一硬证据。
- 成本口径标准化:agent 长任务该按”每个任务烧多少钱”还是”agent 轮次小时”计费;OpenAI 第 99 百分位 >60 小时/天的轮次时长对应的真实美元成本何时披露。
- 经验落地位置的实测对比:context 窗口 / 外部 memory / 微调权重 / harness 代码,四者在跨周期任务上的留存率与污染率——@OkhayIea 提出的问题,等谁来回答。
- benchmark-vs-model 命题的反测:固定 loop 换新模型 vs 优化 loop 用旧模型,哪个赢——Anthropic 自己的数据已经暗示模型仍是强乘数,值得第三方复测。