Skip to content
Go back

AI Loops 入门:什么是 Loop、什么时候该用、什么时候是个坑

大多数人现在用 AI 的方式,和你三年前用 AI 的方式没有本质区别:打一行需求,等一个结果,不满意就改改再问一遍,来回靠人推。AI 自己从来不会主动往前多走一步。

这种方式没问题,但有天花板——你是引擎,AI 只是手里的工具,工具不会自己干活。

另一种方式正在改变这一局面,也是当前最优秀的 AI 工程师正在转向的模式:不再每一轮都手把手推着 AI 走,而是把目标交给它一次,让它自己计划、执行、检查、纠错,直到做完。你退出来,活继续跑。

这个模式就叫 Loop。

什么是 Loop

Prompt 是一条指令。Loop 是一个目标——AI 朝着这个目标重复迭代,直到达成。

两者的区别:

DISCOVER  →  搞清楚需要做什么
PLAN      →  决定怎么做
EXECUTE   →  执行
VERIFY    →  对照目标检验结果
ITERATE   →  没达标?把结果喂回去,再来一轮

这五个环节里,有三个决定了 Loop 是真是假。

Verify 是 Loop 的心脏。 没有真正的验证环节,就不叫 Loop,只是 agent 在反复自我肯定。验证可以是一个测试(“代码能跑通吗”)、一个可度量条件(“数值超过 X 了吗”),或者一套评分标准。没有这道闸门,agent 等于给自己改作业——而写出这段代码的那个模型,打分会比你想象中宽松得多。

State 让 Loop 有机会学习。 每一轮迭代,AI 必须记住自己试过什么、什么失败了、下一步是什么。明天重新跑的时候能从断点继续,而不是从零开始。这也正是 Loop 成本开始膨胀的地方,后面会详细说。

Stop Condition 保证它不会失控。 一个没有出口的 Loop 会一直跑到成功、崩溃,或者花光你的余额。每个正经 Loop 都有两种停止方式:达成目标,或者达到硬上限(比如”最多跑 8 轮,没完成就停下来汇报”)。

简单说:Prompt 是交给 AI 一条指令。Loop 是交给 AI 一个任务、一个判断任务是否完成的方法、一条放弃的规则。

你真的需要一个 Loop 吗

多数文章还没讲清楚什么时候不该用,就先开始教你如何构建。对照下面这四条,四条全部满足才值得上 Loop:

  1. 这个任务至少每周重复一次。 低于这个频率,搭建成本收不回来。一次性的活,一条好 Prompt 就够了。
  2. 有东西能自动拒绝错误输出。 测试、类型检查、构建、lint、硬规则。如果没有任何东西能替你”判不合格”,Loop 只是在空转。
  3. Agent 能自己把活从头干到尾, 而不是做一半再丢回给你。
  4. “做完”这件事是客观的,不是品味判断。 如果质量好坏要靠人来判断,那还是人来做更快。

缺一条,就别折腾,维持手动 Prompt 就好。

说句实在话:Loop 工程是一门真功夫,但大多数人现在还用不上它的重版本。不过你应该搞清楚那条线划在哪。

代码版 Loop:五个积木

Loop 最早在软件工程里爆发,原因是代码几乎是世界上最容易验证的东西——测试通过就是通过,失败就是失败,没什么可争的。

一个典型的编程 Loop 规格长这样:

GOAL:  /tests/auth 下的所有测试通过,lint 干净,零类型错误

EACH ITERATION:
  1. 跑测试套件,读出所有失败项
  2. 挑一个影响最大的失败
  3. 写最小改动来修复它
  4. 重新跑测试、lint 和类型检查

VERIFY: 绿色测试 + 零 lint 警告 + 零类型错误
STOP WHEN: 验证通过,或跑满 8 轮

ON STOP: 汇总改了什么、还有什么仍然失败

剥开来,一个真正的 Loop 由五块积木搭成。Claude Code 和 Codex 现在都内置了这五块。

1. 自动化(心跳)。 把”你手动跑了一次”变成”在日程上自动重复”。Claude Code 里 /loop 按间隔重跑一条 Prompt,/goal 让会话一直跑直到条件为真,hooks 在 agent 生命周期的关键节点触发命令,推到 cron 或 GitHub Actions 里就能在你合上笔记本之后继续跑。

2. Skill(可复用指令集)。 不用每次把一整面墙的指令粘进去。存成一份文件,Loop 每次读:规则、遵循模式,以及绝对不能碰的东西。调度只按名字调用 Skill,维护性不会烂在没人更新的日程表里。

3. Sub-agent(让干活的和检查的分开)。 这是 Loop 里最有用的结构性技巧。写代码的模型批改自己的作业时太心软了。第二个 agent,用不同的指令、有时换个更强的模型,专门抓前一个自说自话的地方。写手可以快和便宜,审查者慢而严。这种分离就是质量的主要来源。

4. Connector(让它行动,而不只是建议)。 这里分了两种 agent:一种说”这是修复建议”,另一种自己把 PR 打开、关联工单、构建变绿后自动在频道里通知。Connector 让 Loop 在你的真实环境里投入行动,而不是描述它理论上能做什么。

5. Verifier(闸门)。 测试、类型检查、构建——能自动拒绝错误结果的东西。这块积木决定了 Loop 是帮你在干活,还是在帮你在花钱。其他都是管道,这块才让它成立。

把这些拼在一起,就是大团队现在已经规模化运行的模式:成百上千个 agent 在同一个任务上并行 Loop。有一个工程师用这种 Loop 在大概六天之内把整个代码库从一种编程语言重写到了另一种——手工写需要接近一年。这是软件构建方式的真实变化。

但每个演示都不会展示的那一面是——

所有演示都回避的那个成本

Loop 跑在 token 上,token 就是钱。问题不在每一步的成本,而在于成本的复利效应

每一轮 Loop 循环,agent 都要重读整段上下文:目标、代码、上一轮结果、失败的地方。这整堆东西在每一轮迭代里都送进模型再算一次,而且每一轮都在变大。一个跑十轮的 Loop 不是十条 Prompt 的成本——是十条、而且每条越来越长的 Prompt。提升质量的”写手+审查者”双模型方案,也把账单翻倍了,因为现在有两个模型在各自读一遍。

一个真正值得关注的指标是每次采纳变更的成本,不是 token 消耗量,也不是 Loop 运行次数。如果 Loop 产出十个结果你扔了六个,那审查工作它其实没帮你省掉。采纳率低于 50%,Loop 花的钱比它给的回报多。

Loop 还会静默失败。工程师 Geoffrey Huntley 把这叫”Ralph Wiggum Loop”:agent 过早宣布完成,在半截活上退出,Loop 继续跑、继续花钱,但什么成果都没有产出。没有一个能判不合格的硬门,Loop 不会崩溃——它只会在沉默中刷你的账单。

这也是为什么重型 Loop 属于那些有预算、有护栏的团队:迭代上限、token 预算、简单步骤用便宜模型、监控。如果你不在这个圈子里,也不用觉得自己在掉队——核心思路在一小部分成本和零搭建开销下就能跑。

构建 Loop 的正确顺序

如果你确实要上 Loop,顺序比工具更重要。能够把 Loop 跑进生产的人,做法都一样:

  1. 先把一次手动执行跑通、跑可靠。
  2. 把它转成一份 Skill(把指令存下来)。
  3. 给 Skill 包上 Loop(加上闸门和停止条件)。
  4. 然后才开始定时调度。

跳过前面几步,直接把还没手工验证可靠的东西放进定时任务——这就是 Loop 在你睡觉时炸掉的经典路径。验证一次、硬化、然后才自动化。

在任何 LLM 里手搓一个 Loop

不需要编码 agent,你现在就能在任何 LLM 里跑一个基础 Loop,只需要一条 Prompt。

诀窍是一次性塞给模型 Loop 的全部三个要件:目标、硬性成功标准,以及一个强制它先验证才能停的协议。

你将以下列 Loop 模式工作,直到任务达到门槛。

TASK:
[描述你确切需要产出的东西]

SUCCESS CRITERIA(严格,不要软通过):
- [标准 1]
- [标准 2]
- [标准 3]

LOOP PROTOCOL,每轮重复:
1. PLAN   - 说明单一下一步要做什么。
2. DO     - 产出或改进作品。
3. VERIFY - 在每项标准上打出 1-10 分。
            对自己残忍一点。逐项列出仍然薄弱的地方。
4. DECIDE - 如果每项标准都 ≥ 8 分,打印 "FINAL" 并停止。
            否则打印 "ITERATING",从最弱项开始修复,再来一轮。

RULES:
- 每项标准达到 8 分之前,绝不宣布完成。
- 每轮必须修复上一轮 VERIFY 里分数最差的那一项。
- 不要提问。做一个合理的假设,标注出来,继续推进。

Begin. 运行 Loop 直到 FINAL.

你会看到模型起草、按你的标准给自己打分、找到薄弱点、重写——重复直到确实跨过门槛,而不是把第一个看起来差不多的东西甩给你。这就是 Loop。你只用了一段话。

但这里少了什么?你是发令枪。你打开对话窗口、粘贴 Prompt、坐在那里看它迭代。关上标签页就没了。没有”每天早上做一遍”、没有”当收到邮件时自动唤醒”——它只存在于你看着它的时候。

要让 Loop 独立运行——按日程、被真实事件触发、不用你守着——通常得进入前面说的重型世界:工具、托管、代码、闸门、账单。

做重型任务时这是合理的。但对于 99% 的日常场景,已经有一个现成的简化方案。

日常生活中的 Loop

剥掉代码和成本,剩下的是一个简单但真正有用的概念:一个自己跑的任务,按日程或者按事件触发,不需要你记得它、也不需要你人在场。

按这个思路,你完全不需要自己写任何代码来搭一个 Loop。只要能把”什么时间 / 什么事件触发 → 做什么事 → 怎么告诉你”描述清楚就行。

原理跟前面一样,只是把实现层交给了现成的工具。比如你想”每个工作日早上 7 点查 Gmail 和日历,把最重要的三场会议、收件箱里的紧急事项、以及你说过要跟进但还没做的事,压缩成 120 字内的一条消息发给你”——这本身就构成一个 Loop,时间触发器、跨应用的多步动作、独立运行、主动找你。描述出来,就成了。

这意味着什么

Loop 不是一阵风潮。它是一种”谁来做工”的转移——AI 不再等你每一步都推动它,而是自己把整个任务跑起来。

但这不意味着你应该到处套。更多时候只是白白烧钱。

建议的路线:先从免费或现成的方案开始,等到你确实觉得不够用了,再想想自己真正需要什么。

如果你关注 AI 助手、开发工具和软件工程实践,可以关注 Aide Hub。这里会继续分享能落地的工具教程、技术观察和项目经验。

参考


Tags


Previous

Loop Engineering 入门:构建自主 AI Agent 循环的四个核心难题

Next

.NET 面试 2026 全栈指南:300+ 道真题及考察逻辑