AI Loops 入门：什么是 Loop、什么时候该用、什么时候是个坑

大多数人现在用 AI 的方式，和你三年前用 AI 的方式没有本质区别：打一行需求，等一个结果，不满意就改改再问一遍，来回靠人推。AI 自己从来不会主动往前多走一步。

这种方式没问题，但有天花板——你是引擎，AI 只是手里的工具，工具不会自己干活。

另一种方式正在改变这一局面，也是当前最优秀的 AI 工程师正在转向的模式：不再每一轮都手把手推着 AI 走，而是把目标交给它一次，让它自己计划、执行、检查、纠错，直到做完。你退出来，活继续跑。

这个模式就叫 Loop。

什么是 Loop

Prompt 是一条指令。Loop 是一个目标——AI 朝着这个目标重复迭代，直到达成。

两者的区别：

DISCOVER  →  搞清楚需要做什么
PLAN      →  决定怎么做
EXECUTE   →  执行
VERIFY    →  对照目标检验结果
ITERATE   →  没达标？把结果喂回去，再来一轮

这五个环节里，有三个决定了 Loop 是真是假。

Verify 是 Loop 的心脏。 没有真正的验证环节，就不叫 Loop，只是 agent 在反复自我肯定。验证可以是一个测试（“代码能跑通吗”）、一个可度量条件（“数值超过 X 了吗”），或者一套评分标准。没有这道闸门，agent 等于给自己改作业——而写出这段代码的那个模型，打分会比你想象中宽松得多。

State 让 Loop 有机会学习。 每一轮迭代，AI 必须记住自己试过什么、什么失败了、下一步是什么。明天重新跑的时候能从断点继续，而不是从零开始。这也正是 Loop 成本开始膨胀的地方，后面会详细说。

Stop Condition 保证它不会失控。 一个没有出口的 Loop 会一直跑到成功、崩溃，或者花光你的余额。每个正经 Loop 都有两种停止方式：达成目标，或者达到硬上限（比如”最多跑 8 轮，没完成就停下来汇报”）。

简单说：Prompt 是交给 AI 一条指令。Loop 是交给 AI 一个任务、一个判断任务是否完成的方法、一条放弃的规则。

你真的需要一个 Loop 吗

多数文章还没讲清楚什么时候不该用，就先开始教你如何构建。对照下面这四条，四条全部满足才值得上 Loop：

这个任务至少每周重复一次。 低于这个频率，搭建成本收不回来。一次性的活，一条好 Prompt 就够了。
有东西能自动拒绝错误输出。 测试、类型检查、构建、lint、硬规则。如果没有任何东西能替你”判不合格”，Loop 只是在空转。
Agent 能自己把活从头干到尾， 而不是做一半再丢回给你。
“做完”这件事是客观的，不是品味判断。 如果质量好坏要靠人来判断，那还是人来做更快。

缺一条，就别折腾，维持手动 Prompt 就好。

说句实在话：Loop 工程是一门真功夫，但大多数人现在还用不上它的重版本。不过你应该搞清楚那条线划在哪。

代码版 Loop：五个积木

Loop 最早在软件工程里爆发，原因是代码几乎是世界上最容易验证的东西——测试通过就是通过，失败就是失败，没什么可争的。

一个典型的编程 Loop 规格长这样：

GOAL:  /tests/auth 下的所有测试通过，lint 干净，零类型错误

EACH ITERATION:
  1. 跑测试套件，读出所有失败项
  2. 挑一个影响最大的失败
  3. 写最小改动来修复它
  4. 重新跑测试、lint 和类型检查

VERIFY: 绿色测试 + 零 lint 警告 + 零类型错误
STOP WHEN: 验证通过，或跑满 8 轮

ON STOP: 汇总改了什么、还有什么仍然失败

剥开来，一个真正的 Loop 由五块积木搭成。Claude Code 和 Codex 现在都内置了这五块。

1. 自动化（心跳）。 把”你手动跑了一次”变成”在日程上自动重复”。Claude Code 里 /loop 按间隔重跑一条 Prompt，/goal 让会话一直跑直到条件为真，hooks 在 agent 生命周期的关键节点触发命令，推到 cron 或 GitHub Actions 里就能在你合上笔记本之后继续跑。

2. Skill（可复用指令集）。 不用每次把一整面墙的指令粘进去。存成一份文件，Loop 每次读：规则、遵循模式，以及绝对不能碰的东西。调度只按名字调用 Skill，维护性不会烂在没人更新的日程表里。

3. Sub-agent（让干活的和检查的分开）。 这是 Loop 里最有用的结构性技巧。写代码的模型批改自己的作业时太心软了。第二个 agent，用不同的指令、有时换个更强的模型，专门抓前一个自说自话的地方。写手可以快和便宜，审查者慢而严。这种分离就是质量的主要来源。

4. Connector（让它行动，而不只是建议）。 这里分了两种 agent：一种说”这是修复建议”，另一种自己把 PR 打开、关联工单、构建变绿后自动在频道里通知。Connector 让 Loop 在你的真实环境里投入行动，而不是描述它理论上能做什么。

5. Verifier（闸门）。 测试、类型检查、构建——能自动拒绝错误结果的东西。这块积木决定了 Loop 是帮你在干活，还是在帮你在花钱。其他都是管道，这块才让它成立。

把这些拼在一起，就是大团队现在已经规模化运行的模式：成百上千个 agent 在同一个任务上并行 Loop。有一个工程师用这种 Loop 在大概六天之内把整个代码库从一种编程语言重写到了另一种——手工写需要接近一年。这是软件构建方式的真实变化。

但每个演示都不会展示的那一面是——

所有演示都回避的那个成本

Loop 跑在 token 上，token 就是钱。问题不在每一步的成本，而在于成本的复利效应。

每一轮 Loop 循环，agent 都要重读整段上下文：目标、代码、上一轮结果、失败的地方。这整堆东西在每一轮迭代里都送进模型再算一次，而且每一轮都在变大。一个跑十轮的 Loop 不是十条 Prompt 的成本——是十条、而且每条越来越长的 Prompt。提升质量的”写手+审查者”双模型方案，也把账单翻倍了，因为现在有两个模型在各自读一遍。

一个真正值得关注的指标是每次采纳变更的成本，不是 token 消耗量，也不是 Loop 运行次数。如果 Loop 产出十个结果你扔了六个，那审查工作它其实没帮你省掉。采纳率低于 50%，Loop 花的钱比它给的回报多。

Loop 还会静默失败。工程师 Geoffrey Huntley 把这叫”Ralph Wiggum Loop”：agent 过早宣布完成，在半截活上退出，Loop 继续跑、继续花钱，但什么成果都没有产出。没有一个能判不合格的硬门，Loop 不会崩溃——它只会在沉默中刷你的账单。

这也是为什么重型 Loop 属于那些有预算、有护栏的团队：迭代上限、token 预算、简单步骤用便宜模型、监控。如果你不在这个圈子里，也不用觉得自己在掉队——核心思路在一小部分成本和零搭建开销下就能跑。

构建 Loop 的正确顺序

如果你确实要上 Loop，顺序比工具更重要。能够把 Loop 跑进生产的人，做法都一样：

先把一次手动执行跑通、跑可靠。
把它转成一份 Skill（把指令存下来）。
给 Skill 包上 Loop（加上闸门和停止条件）。
然后才开始定时调度。

跳过前面几步，直接把还没手工验证可靠的东西放进定时任务——这就是 Loop 在你睡觉时炸掉的经典路径。验证一次、硬化、然后才自动化。

在任何 LLM 里手搓一个 Loop

不需要编码 agent，你现在就能在任何 LLM 里跑一个基础 Loop，只需要一条 Prompt。

诀窍是一次性塞给模型 Loop 的全部三个要件：目标、硬性成功标准，以及一个强制它先验证才能停的协议。

你将以下列 Loop 模式工作，直到任务达到门槛。

TASK:
[描述你确切需要产出的东西]

SUCCESS CRITERIA（严格，不要软通过）:
- [标准 1]
- [标准 2]
- [标准 3]

LOOP PROTOCOL，每轮重复：
1. PLAN   - 说明单一下一步要做什么。
2. DO     - 产出或改进作品。
3. VERIFY - 在每项标准上打出 1-10 分。
            对自己残忍一点。逐项列出仍然薄弱的地方。
4. DECIDE - 如果每项标准都 ≥ 8 分，打印 "FINAL" 并停止。
            否则打印 "ITERATING"，从最弱项开始修复，再来一轮。

RULES:
- 每项标准达到 8 分之前，绝不宣布完成。
- 每轮必须修复上一轮 VERIFY 里分数最差的那一项。
- 不要提问。做一个合理的假设，标注出来，继续推进。

Begin. 运行 Loop 直到 FINAL.

你会看到模型起草、按你的标准给自己打分、找到薄弱点、重写——重复直到确实跨过门槛，而不是把第一个看起来差不多的东西甩给你。这就是 Loop。你只用了一段话。

但这里少了什么？你是发令枪。你打开对话窗口、粘贴 Prompt、坐在那里看它迭代。关上标签页就没了。没有”每天早上做一遍”、没有”当收到邮件时自动唤醒”——它只存在于你看着它的时候。

要让 Loop 独立运行——按日程、被真实事件触发、不用你守着——通常得进入前面说的重型世界：工具、托管、代码、闸门、账单。

做重型任务时这是合理的。但对于 99% 的日常场景，已经有一个现成的简化方案。

日常生活中的 Loop

剥掉代码和成本，剩下的是一个简单但真正有用的概念：一个自己跑的任务，按日程或者按事件触发，不需要你记得它、也不需要你人在场。

按这个思路，你完全不需要自己写任何代码来搭一个 Loop。只要能把”什么时间 / 什么事件触发 → 做什么事 → 怎么告诉你”描述清楚就行。

原理跟前面一样，只是把实现层交给了现成的工具。比如你想”每个工作日早上 7 点查 Gmail 和日历，把最重要的三场会议、收件箱里的紧急事项、以及你说过要跟进但还没做的事，压缩成 120 字内的一条消息发给你”——这本身就构成一个 Loop，时间触发器、跨应用的多步动作、独立运行、主动找你。描述出来，就成了。

这意味着什么

Loop 不是一阵风潮。它是一种”谁来做工”的转移——AI 不再等你每一步都推动它，而是自己把整个任务跑起来。

但这不意味着你应该到处套。更多时候只是白白烧钱。

建议的路线：先从免费或现成的方案开始，等到你确实觉得不够用了，再想想自己真正需要什么。

如果你关注 AI 助手、开发工具和软件工程实践，可以关注 Aide Hub。这里会继续分享能落地的工具教程、技术观察和项目经验。