会设计循环，是你下一个能力杠杆

一个暖橙色半透明的人，疲惫地坐在泛着冷蓝光的屏幕前，屏幕上满是代码和一行行报错；他一手撑着额头，像在没完没了地把错误一遍遍喂回去——给这台机器当保姆

我们以为自己在「用」AI，可多数时候，不过是在一遍遍把它的错喂回去、给它当保姆。真正该重新设计的，不是你那句指令，是「你盯着它改」这件事本身。

二十分钟，我只干成了复制粘贴

写一句指令，看 AI 吐结果，发现不对，把报错复制回去，它再试一次，还不对，再贴回去……等我回过神，二十分钟没了。

讽刺的是，我是做 AI Agent 产品的，每天跟各种模型打交道。可你看我刚才那二十分钟在干嘛——我不是在用 AI，我是在给 AI 当保姆。 我本来想甩给它的那摊重复劳动，原封不动自己又干了一遍，只不过中间多了几次复制粘贴。

如果你也有过这个瞬间，恭喜，你已经踩在今年最火的那个词的门口上了——Loop Engineering（循环工程）。

这词怎么突然就火了

今年 6 月 8 号，一个叫 Peter Steinberger 的开发者（搞过 OpenClaw、现在去了 OpenAI 的那位）在 X 上发了句话，大意是：你别再去 prompt 你的编程 agent 了，你该去设计那个「替你 prompt agent」的循环。就这么两句，没图没链接，结果六百多万阅读，整个 AI 编程圈吵了一礼拜。

紧接着，Anthropic 那边管 Claude Code 的 Boris Cherny 也撂了句几乎一样的话：他现在不亲自 prompt Claude 了，他养了一堆循环在跑、让循环去 prompt Claude，“我的工作就是写循环”。

两个分量很重的人，几乎同时说了同一件事。所以哪怕你压根不写代码，这事也值得搞明白——因为它正在改变「人和 AI 一起干活」这件事本身长什么样。

那 Loop Engineering 到底是什么

一句话：

Loop Engineering 就是设计一个让 AI 自我纠错的循环：你只定好三件事——要做什么、用什么标准判断做对没有、什么时候停；中间反复「做 → 自检 → 改」直到达标，全交给它自己跑。

我特别喜欢用一个对照来解释：

Prompt engineering（写提示词），优化的是「我怎么跟 AI 把一句话说好」。
Loop engineering（写循环），优化的是「让 AI 在一个什么形状的循环里反复跑」。

打个不太准、但好懂的比方。Prompt 像你给下属交代一件事，说得越清楚越好，可你还得盯着他每一步；Loop 像你给他立了条规矩——「改到测试全过为止，过不了别来找我」——然后你就能去喝咖啡了。前者你还在场，后者你下班了。

这个循环的雏形其实不新。2022 年的 ReAct（让模型「想一步、做一步、看结果、再想一步」）就是它。去年 7 月还有人搞过一个叫 Ralph 的东西，本质就是一行 bash 循环，硬是靠它花了大概 297 美元写出了一门编程语言。所以这个「圈」是老的，变的是我们往圈里塞了个会思考的大模型，让它当那个做决策的人。

一边是人站在下属背后盯着他写的每一个字，一边是人翘脚喝咖啡、一台贴着「改到测试全过」纸条的循环在自己转

它到底有什么用：杠杆点又挪了一格

过去几年，你的能力杠杆是「会写 prompt」；再往前，是「会写代码」。

现在这个杠杆点又挪了一格——变成「会设计循环」。因为一件事一旦被你定义成一个能自我纠错的循环，理论上你就能同时盯着好几个、甚至一批这样的循环替你干活，而不是一次只能伺候一个。

但这里我得踩个刹车，因为吹这件事的人太多了。

它不是银弹。几个让人清醒的数字：

有一项覆盖 306 位一线从业者的生产调研发现，68% 的生产环境 agent，在人介入之前只跑了不到 10 步。真正能用的系统大多是「小而受监督」的，不是科幻里那种成百上千的自治蜂群。
Uber 这种体量的公司，据报道四个月就烧光了全年的 AI 预算，最后不得不给每人每个工具每月封顶 1500 美元。循环不设刹车，烧起钱来是会让你心梗的。
连最早把这个概念带火的那几个人里，Addy Osmani 自己都很克制，原话大意是：“我持怀疑态度，你一定得非常小心 token 成本。”

所以「一个人指挥 100 个 AI」——方向也许对，但今天它是个上限叙事，不是现状。我们别被带节奏。

怎么用：两个判断，外加一个小技巧

好，落到能上手的部分。手上有个活想交给 AI 自动循环，先别急着干，问自己两件事——最后我再送你一个每天都好用的小技巧。

判断一：这活适不适合上循环

我自己总结了四个粗筛问题，全是大白话：

能不能机器判对错？ 有没有一个客观标准能说「这版行 / 不行」。代码能（跑个测试就知道），但「这文案够不够打动人」「这个战略对不对」，机器判不了。
判一次便宜吗、快吗？ 这个「判对错」的动作，得比你自己重做一遍便宜得多，而且每一轮都能跑。跑个单元测试是毫秒级，很便宜；可要是每一轮都得请个专家人工评审，循环就卡死了。
错了能撤回吗？ 中间出了烂结果，能不能廉价地回滚。在一个分支上写错代码，没事；可群发邮件、转账、删生产库——这些泼出去的水收不回来。
能拆成小块吗？ 这活能不能切成一小步一小步，每步都小到 AI 能想清楚。

四个全是「能」，那这活就是循环的天堂——但别笼统地说「写代码」就行。准确讲，是有测试兜底的那部分编程：改个 bug、做完重构，跑一遍测试当场就知道成没成。可同样是敲键盘，「这个架构该怎么设计」就没这福气——它没有能当场打分的裁判。反过来，四个里只要有一个落在「不能」，就得当心了。

一个暖橙色半透明的人，低头端详手里托着的一个冷蓝色发光回路，像在判断这件活能不能交给它自己转

判断二：守住红线，没「裁判」的活别全自动

这条我想重点说，因为它最容易被误读。很多人以为循环是个万能加速器，其实它有条硬边界：

循环的好坏，约等于那个「裁判」的好坏。一个没有可靠裁判的循环，只是一台更快、更自信地产出垃圾的机器。

举个我自己的私货。我业余在做一个开源的 galgame（文字冒险游戏）内容生成项目。让 AI 循环去写代码、查 bug，很顺，因为「跑不跑得通」有明确裁判；可让它循环去写一段「好看的剧情」——卡住了。因为「好不好看」这件事，根本没有一个又便宜又靠谱的机器裁判。AI 能复制配方，却煲不出那锅「酱汁」。

这不怪 AI，是这个任务天生缺一个能打分的裁判。凡是落在「没法自动验收」这一格的活——纯创意、定方向、拍战略——你可以用 AI 生成草稿，但千万别全自动交付。

一个冷蓝色的循环回路高速空转，不断向外甩出松散、暗淡的碎块——没有谁在旁边把关

最后：一个我每天都在用的小技巧

最后送个特别实用的。当你想让 AI 帮你干个活、自己却一时说不清「我到底要什么」的时候——

别让它反过来问你一堆问题。让它先直接生成一版草稿，把所有它自己拿不准、替你做主的地方都标上「假设」，然后你只改错的那几处就行。

为什么这样更好？因为让你对着一个具体草稿「挑错」，比让你对着空白页「从零想清楚」，轻松一百倍。人脑擅长「认」，不擅长「凭空想」。好工具就该顺着这一点，把「想清楚」的负担从你身上卸下来，而不是甩给你一张问卷。

收个尾

所以我对 Loop Engineering 的判断是：门槛很高，但回馈很大。

门槛高在「为这个任务造一个又便宜、又靠谱、还自带停止判据的裁判」，这件事往往很难；回馈大在那些「裁判好造、却又极其吃你注意力」的活——海量代码审查、批量数据清洗、合规检查——一旦循环化，能把你整个人从重复劳动里捞出来。

那为什么有的循环会自信地烧着钱、产出垃圾，你定的标准它总能钻空子？说穿了，是因为 Loop Engineering 更像是强化学习换了身衣服：你定的那个「标准」，就是给模型的奖励；而它会拼了命去拿高分，哪怕用的是歪门邪道。这套机理，我放下一篇专门拆——会讲得更透，但也更硬核一点，得稍微懂些算法和模型原理。

所以这篇就记一句话：你手上的活，有没有一个又便宜又靠谱的裁判？有，循环就是你的杠杆；没有，再漂亮的循环也只是在更快地产出垃圾。 别再卷怎么写好一句 prompt 了，去盘点你手头那些活——哪些能交给一个会自我纠错的循环。

最后夹带点私货：我把这套判断——什么活能循环、怎么给它配个靠谱裁判——固化成了一个开源 skill，给 Claude / Codex 加载，让 AI 当个会说「这事你造不出裁判，别全自动」的诚实顾问。感兴趣的朋友可以拿去用、顺便给我点个 star：qingqingpi/loop-engineering-skill，下一篇我会拿它细讲。

我是孙鑫，一个做 Agent 方向的 AI 产品经理。这个系列记录我在 AI-native 时代摸爬滚打的一些真实思考，欢迎来 sunxin.xin 找我聊。