观点观察

'Loop engineering' 走热:Anthropic 内部 >90% 工程师已用 self-improving loops 造 agent

>90% 工程师用 self-improving loops 造 agent——单一信源、关键词未定义;但 OpenAI 一手数据显示 agent 跑几小时已是常态。

2026年6月29日 · 周一深度报告中置信重要度 3/5

#Loop Engineering #Agentic Loop #Self-improving Agents #Anthropic #OpenAI Codex #Agent Memory #Agent Harness

Research Pack

核心问题

'loop engineering' 是 agent 构建从'调 API'走向'造系统'的真实一跃,还是又一次术语包装?那个 >90% 的爆料撑不撑得起这个判断?

为什么是现在

2026-06-25 OpenAI 用一手数据证明 agent 长时间自主循环已成生产常态(Codex 占内部 99.8% 输出 token、第 99 百分位 >60 小时/天);同周 @0xCodez 转述 Anthropic Managed Agents Lead 称 >90% 工程师已用 self-improving loops,并给出 Agent→harness→loops→memory 公式;@OkhayIea 综述把'能跑 ≠ 会学'和'选 benchmark 非选模型'推成讨论焦点。三股力量同一周汇聚,把一件早就在发生的事推到了需要命名的高度。

关键数字

>90%
Anthropic 内部用 self-improving loops 造 agent 的工程师占比X 用户 @0xCodez 转述 Anthropic Managed Agents Lead 播客,预计 4-6 个月内达 100%;单一二手信源,无官方确认,'self-improving' 未定义

99.8%
Codex 占 OpenAI 内部每周输出 token 比例OpenAI 官方博客(2026-06-25)一手统计;28 天活跃用户中使用 Codex 的占比为 97.9%

>60 小时
第 99 百分位用户单日 Codex agent 轮次时长跨多个并行 agent 分散产生;OpenAI 官方统计,2026-06

25.6%
做过 ≥1 次预估超 8 小时人工工作量的 Codex 请求的个人用户占比OpenAI 官方博客采样数据,截至 2026-05;另有 70.2% 做过超 1 小时、80.6% 做过超 30 分钟

本文要点

agent 构建的杠杆点从'选哪个模型'挪向'怎么造循环':公式 Agent→harness→loops→memory 把散落在 prompt/工具/上下文管理里的活儿收拢成一个可工程化对象
agent 运行时长从'几次工具调用'升级到'数小时无人盯防':OpenAI 25.6% 用户做过超 8 小时请求、第 99 百分位单日 >60 小时 agent 轮次;Anthropic 称其 loop 跑数小时不烧数百美元(单源)
讨论焦点从'loop 能不能跑'转向'loop 会不会学':@OkhayIea 指出经验能否跨周期存活取决于落地位置(context/外部 memory/权重/代码),这正是 self-improving 最硬也最易被滥用的地方

6 月最后一周,“loop engineering(循环工程)“成了 AI 圈的高频词。它不是凭空冒出来的——同一周里,一条尚未被官方确认的爆料、一篇社区综述、一份前沿实验室的一手数据,把同一件事从不同侧面推到了台前。X 用户 @0xCodez 转述 Anthropic Managed Agents Lead 在一场 40 分钟播客中的说法:Anthropic 内部已有 >90% 的工程师在用 self-improving loops(自我改进循环)构建 agent,预计 4–6 个月内达到 100%;其 agentic loop 可以连续运行数小时而不花掉数百美元;他还给出现代 agent 的公式 Agent→harness→loops→memory。@OkhayIea 同期发”loop engineering”综述,核心判断是「能整夜运行的 loop 不等于会学习的 loop——经验能否跨周期存活,取决于它落在哪」;@369Serena 则把这套思路落到写作上,给出六步 Loop(Define→Research→Outline→Draft→QA→Polish)。

如果那个判断成立,意味着 agent 构建的主战场已经从”选哪个模型”挪到了”怎么造循环”。但那个 >90% 目前只有一条 X 转述、没有官方背书——所以这篇文章要做的,不是替它背书,而是把它放进已有的证据里看:loop engineering 到底在说什么,独立数据撑不撑得起”agent 跑几小时是常态”。

一个被命名的活儿:Agent→harness→loops→memory

“loop engineering”这个词能立住,不是靠那条爆料,而是因为它给一件早就发生的活儿命了名。要把这件事说清楚,得回到 Anthropic 自己给 agent 下的定义。2024 年 12 月 19 日的《Building Effective Agents》里,作者(Erik S.、Barry Zhang)把 agent 写成一句话:“LLMs using tools based on environmental feedback in a loop”——在循环里、依据环境反馈用工具的 LLM。他们刻意区分了 workflow(走预设代码路径)和 agent(模型自己动态指挥流程),并指出 agent 的实现”往往很直白”,真正复杂的是围绕它的工具接口(ACI)、检索与记忆。

这正好对应爆料里那个公式的拆解:

Agent 是模型本身;
**harness(外壳)**是包裹模型的代码——工具定义、调度、停止条件、错误恢复;
loops 是它跑起来的循环;
memory 是经验落地的位置。

“loop engineering”作为名词的价值,正在于把过去散落在 prompt 工程、工具设计、上下文管理里的活儿,收拢成一个能被工程化的对象。命名本身是生产力:有了这个词,经验落在哪、跑多久、烧多少钱、会不会学,这些原本各干各的问题才有了共同的坐标系。Anthropic 2025 年 6 月《How we built our multi-agent research system》里那句**「原型到生产的差距,往往比预想的大(the gap between prototype and production is often wider than anticipated)」**,放在 loop engineering 越热的当下尤其值得记住——越是给一件事命了名,越要警惕把命名当成了结论。

那个 90%,和一个没定义的词

先说信源。**“>90% 工程师用 self-improving loops”**这句话的全部依据,是 X 用户 @0xCodez 对一场播客的转述,被引述者是 Anthropic 的 Managed Agents Lead。没有播客原文链接、没有官方博客、没有第三方复述,Anthropic 也未确认。这是典型的”单一二手信源”——方向性有意思,但不能当精确战报读。

比信源更值得追问的,是”self-improving loops”这个词本身没定义。它至少可能指三件含金量天差地别的事:(1)循环内的 agent 根据环境反馈自我纠错——这是 Anthropic 2024 年底就定义过的标准 agentic loop,门槛最低;(2)循环把经验写回 memory、下一个周期复用——这才是”跨周期自我改进”,门槛高得多;(3)循环改写自己的工具或 prompt——Anthropic 2025 年 6 月的多 agent 系统里有过实例。爆料没有区分这三档。所以对这条爆料,合理的态度是:把 >90% 当风向标,不当数据;把”self-improving”当待定义的词,不当结论。

@OkhayIea 的综述恰好把火力对准了这一环,判断是**「能整夜运行的 loop ≠ 会学习的 loop」:一个 loop 可以稳定跑一整夜做大量工具调用,但如果它这一夜积累的经验在下一轮循环开始时就丢了,那它只是”勤奋”,不是”在变强”。经验能不能跨周期存活,取决于它落在哪**——落在上下文窗口里(会被 20 万 token 截断冲掉)、落在外部 memory 里(能检索但可能失真)、落进微调权重里(最持久但最贵)、还是落进 harness 代码里(最可控但最不”智能”)。这是 loop engineering 真正的硬骨头,也是”self-improving”四个字最容易被滥用的地方。

Anthropic 自己的多 agent 系统给出了这条硬骨头的现实样本:lead agent 必须把研究计划写进 memory,因为上下文超过 20 万 token 会被截断——这正是”经验落在哪”的工程约束;他们还做了一个工具测试 agent,让它在拿到有缺陷的 MCP 工具后自己试用、再重写工具描述,改完后后续 agent 的任务完成时间下降 40%。这是”循环改写自己的工具”那一档的 self-improving,有据可查,但它和”loop 跑两周后整体变强”之间,还隔着很远。

@OkhayIea 顺带抛出的另一句流行话是**「你不是在选模型,而是在选 benchmark」——当你把 loop 工程化之后,决定成败的是你拿什么任务去衡量它,而不是底层模型的名字。这个论点漂亮,但有一个反证来自 Anthropic 自己:在多 agent 研究系统里,他们发现升级到 Claude Sonnet 4 带来的性能提升,大于把 Claude Sonnet 3.7 的 token 预算翻倍**。换句话说,模型档位仍是巨大的乘数,“选 benchmark 而非选模型”在模型快速迭代的当下,只能说对了一半。

背景:Anthropic 多 agent 系统的 token 经济性与自我改进实例(2025-06)

token 是性能主驱动:单个 agent 相对 chat 约消耗 4× token,多 agent 系统约 15×;token 使用量本身解释了 80% 的性能方差。
memory 跨截断存活:lead agent 把研究计划写进 memory,因为上下文超过 20 万 token 会被截断——这正是 @OkhayIea 说的”经验落在哪”的现实约束。
一个真实的 self-improving 实例:他们做了一个工具测试 agent,让它在拿到有缺陷的 MCP 工具后自己试用、再重写工具描述,改完后后续 agent 的任务完成时间下降 40%。这是”循环改写自己的工具”那一档的 self-improving,有据可查。
原话提醒:「原型到生产的差距,往往比预想的大」(the gap between prototype and production is often wider than anticipated)——loop engineering 越热,这句越值得记住。

撑得住的那一面:agent 长跑已是生产事实

那条爆料里”agentic loop 跑数小时不烧几百美元”的措辞,单看是孤证。但同周 OpenAI 发的《How agents are transforming work》(2026-06-25)用自家内部数据,从另一个方向把”agent 长时间自主运行”这件事钉死了——而且这不是社区传闻,是前沿实验室的一手统计:

指标	数值	来源
Codex 占 OpenAI 内部每周输出 token	99.8%	OpenAI 官方博客
OpenAI 28 天活跃用户中使用 Codex 的占比	97.9%	OpenAI 官方博客
做过 ≥1 次预估超 8 小时人工工作量的 Codex 请求的个人用户占比	25.6%	OpenAI 官方博客
第 99 百分位用户单日产生的 Codex agent 轮次时长	>60 小时(跨多个并行 agent)	OpenAI 官方博客
自 2025 年 8 月以来非开发者用户增长(个人/组织)	137× / 189×	OpenAI 官方博客
Anthropic 多 agent 系统相对 chat 的 token 消耗	~15×	Anthropic 工程博客

OpenAI 的措辞值得原样引用:「Agentic AI 把知识工作的单位,从单次交互变成了委派的、长周期的任务……Agent 可以独立运行数分钟到数小时,同时编排工具调用、与环境交互、向解法迭代。」到 2026 年 6 月,OpenAI 内部最重度的一批用户,一天就调度出超过 60 小时的 agent 工作量,分散在多个并行 agent 上;连法务、招聘这些非技术部门,也都在 4 月前后把 Codex 用成了主力 AI 工具。自 2025 年 8 月以来,非开发者用户在个人端涨了 137 倍、组织端 189 倍——agent 不再是工程师的专利。

把这些和 Anthropic 侧的信号叠在一起,会得到一个比”90% 工程师在用 loop”扎实得多的结论:agent 长时间自主循环,已经从前沿实验室的内部标配,变成可统计的生产事实。 至于”不烧几百美元”那个成本口径,仍是单源、仍待核实,但方向上和 Anthropic”高价值任务才用得起多 agent”的判断一致——loop 经济性的真正变量不是单价,而是单个任务烧多少钱、产出值不值。

早报观点

“Loop engineering”被讨论,真正的价值不在那个抓眼球的 90%——它单一来源、未定义关键词、没有官方背书,拿来当头条数字是不负责任的。它的价值在于:社区终于把一件早就发生的事说出了名字。agent 不是”更聪明的聊天框”,而是”被外壳(harness)包着、在循环(loops)里跑、靠 memory 活过下一个周期”的模型——这套 Agent→harness→loops→memory 的拆分,把过去散落在 prompt 工程、工具设计、上下文管理里的活儿,收拢成一个可以被工程化的对象。命名本身就是生产力:一旦有了”loop engineering”这个词,经验落地位置(context / 外部 memory / 权重 / 代码)、运行时长与成本的权衡、跨周期学习质量,这些原本各干各的问题,就有了共同的坐标系。

顺着这套坐标系往下推,有两个判断值得说清楚,也必须把 caveat 留在边上。“self-improving” 是当下最被滥用的词——一个能在循环里自我纠错的 agent,和一个能把经验写回 memory、在下一周期真正变强的 agent,工程难度差一个数量级,前者 Anthropic 2024 年底就讲清楚了,后者到今天仍是开放问题。@OkhayIea 那句「能跑 ≠ 会学」一针见血:大量号称”自我改进”的 loop,其实只是勤奋地重复,经验要么被上下文截断冲掉,要么存在外部 memory 里逐渐失真。在有人拿出”同一 loop 跑两周后任务成功率单调上升”的曲线之前,对一切 self-improving 的宣称都该保持怀疑。与此相关的是另一句流行话——“你不是在选模型,而是在选 benchmark”——漂亮,但只对了一半:Anthropic 自己的数据显示,升一档模型比翻倍 token 预算更值,在模型仍在快速迭代时把模型选择说成次要,是 loop 工程师的自豪感盖过了事实。

这两件事其实指向同一个更稳的判断:模型决定下限,loop 决定上限,benchmark 决定你看见哪一者。 loop engineering 不是噱头,它是 agent 从”调 API”走向”造系统”的必经一跃,OpenAI 和 Anthropic 的一手数据都证明这一跃已经在发生;只是请把那个 90% 当作引子,而不是结论——这个行业最缺的,从来不是漂亮的数字,而是能验证”循环真的在变强”的度量。

接下来看什么

那个 90% 的落地:Anthropic 是否官方确认或否认、是否放出播客原文/转写;以及”self-improving loops”在官方语境里到底指哪一档(循环内纠错 / 经验回写 memory / 改写自身工具)。
跨周期学习曲线:有没有团队能拿出”同一 loop 连续运行数周后,任务成功率/单位成本单调改善”的公开数据——这是区分”勤奋的 loop”和”会学的 loop”的唯一硬证据。
成本口径标准化:agent 长任务该按”每个任务烧多少钱”还是”agent 轮次小时”计费;OpenAI 第 99 百分位 >60 小时/天的轮次时长对应的真实美元成本何时披露。
经验落地位置的实测对比:context 窗口 / 外部 memory / 微调权重 / harness 代码,四者在跨周期任务上的留存率与污染率——@OkhayIea 提出的问题,等谁来回答。
benchmark-vs-model 命题的反测:固定 loop 换新模型 vs 优化 loop 用旧模型,哪个赢——Anthropic 自己的数据已经暗示模型仍是强乘数,值得第三方复测。

Claim Audit

Anthropic 内部 >90% 工程师已用 self-improving loops 构建 agent,4-6 个月内达 100%

置信度：low

单一二手信源,无播客原文链接、无官方确认、无第三方复述;'self-improving loops' 未定义,可能指循环内纠错/经验回写 memory/改写自身工具三档完全不同的东西。宜作风向标,不宜作数据。

agent 构建的主战场已从'选模型'转向'造循环'(loop/harness/memory 工程)

置信度：medium

Anthropic 自己的多 agent 数据显示升一档模型(Sonnet 4)比翻倍 token 预算(Sonnet 3.7)更值——模型仍是强乘数;'选 benchmark 非选模型'在模型快速迭代期只能说对一半。

生产级 agent 长时间自主循环已成可统计的常态,成本可控

置信度：medium

'不烧几百美元'是单一信源、口径未公开;OpenAI 的 >60 小时/天是 agent 轮次时长(非挂钟时间)、且跨并行 agent 分散,不等于单任务成本。

'能跑 ≠ 会学':loop 的真问题不是运行时长,而是经验能否跨周期存活

置信度：medium

经验'落在哪'被作为问题提出,未被系统回答;目前没有公开数据证明同一 loop 连续运行数周后任务成功率单调上升——'自我改进'宣称普遍缺乏可验证度量。

Timeline

2024-12-19

Anthropic 发布《Building Effective Agents》,把 agent 定义为'在循环里依据环境反馈用工具的 LLM',区分 agent 与 workflow,提出 augmented LLM(检索/工具/记忆)

2025-06-13

Anthropic 发布《How we built our multi-agent research system》,给出 token 经济性(~15×)、memory 跨 20 万 token 截断存活、self-improving 工具测试 agent(省 40% 时间),并称'原型到生产的差距比预想大'

2026-06-25

OpenAI 发布《How agents are transforming work》,用一手数据说明 agent 已可独立运行数分钟到数小时,Codex 占内部每周输出 token 99.8%,第 99 百分位用户单日 >60 小时 agent 轮次

2026-06-28~29

@0xCodez 转述 Anthropic Managed Agents Lead 播客(>90% 工程师用 self-improving loops、Agent→harness→loops→memory);@OkhayIea 发'loop engineering'综述(能跑≠会学、选 benchmark 非选模型);@369Serena 给写作六步 Loop

Sources

official · OpenAI 官方博客:How agents are transforming work official · Anthropic 工程博客:Building Effective Agents official · Anthropic 工程博客:How we built our multi-agent research system community · X @0xCodez:Anthropic Managed Agents Lead 播客转述 community · X @OkhayIea:Loop engineering 综述 community · X @369Serena:写作六步 Loop

Watch Next

Anthropic 是否官方确认/否认 >90% 与 self-improving loops 说法,或放出播客转写;'self-improving' 在官方语境指哪一档
有无团队公开'同一 loop 连续运行数周后任务成功率/单位成本单调改善'的曲线——区分'勤奋的 loop'与'会学的 loop'的唯一硬证据
OpenAI 第 99 百分位 >60 小时/天 agent 轮次对应的真实美元成本何时披露;agent 长任务按'每任务美元'还是'轮次小时'计费的口径之争
经验落地位置(context/外部 memory/微调权重/harness 代码)在跨周期任务上的留存率与污染率实测对比
benchmark-vs-model 命题的反测:固定 loop 换新模型 vs 优化 loop 用旧模型——第三方复测模型仍是强乘数这一判断

待解问题

'>90% 工程师用 self-improving loops'是否属实,'self-improving'操作上到底指哪一档?
经验必须落在哪才能跨周期存活并真正提升成功率——目前只有问题,没有答案
'选 benchmark 而非选模型'在模型仍快速迭代时成立吗?Anthropic 自家数据显示模型档位仍是强乘数