博客
会设计循环,是你下一个能力杠杆

我们以为自己在「用」AI,可多数时候,不过是在一遍遍把它的错喂回去、给它当保姆。真正该重新设计的,不是你那句指令,是「你盯着它改」这件事本身。
二十分钟,我只干成了复制粘贴
写一句指令,看 AI 吐结果,发现不对,把报错复制回去,它再试一次,还不对,再贴回去……等我回过神,二十分钟没了。
讽刺的是,我是做 AI Agent 产品的,每天跟各种模型打交道。可你看我刚才那二十分钟在干嘛——我不是在用 AI,我是在给 AI 当保姆。 我本来想甩给它的那摊重复劳动,原封不动自己又干了一遍,只不过中间多了几次复制粘贴。
如果你也有过这个瞬间,恭喜,你已经踩在今年最火的那个词的门口上了——Loop Engineering(循环工程)。
这词怎么突然就火了
今年 6 月 8 号,一个叫 Peter Steinberger 的开发者(搞过 OpenClaw、现在去了 OpenAI 的那位)在 X 上发了句话,大意是:你别再去 prompt 你的编程 agent 了,你该去设计那个「替你 prompt agent」的循环。就这么两句,没图没链接,结果六百多万阅读,整个 AI 编程圈吵了一礼拜。
紧接着,Anthropic 那边管 Claude Code 的 Boris Cherny 也撂了句几乎一样的话:他现在不亲自 prompt Claude 了,他养了一堆循环在跑、让循环去 prompt Claude,“我的工作就是写循环”。
两个分量很重的人,几乎同时说了同一件事。所以哪怕你压根不写代码,这事也值得搞明白——因为它正在改变「人和 AI 一起干活」这件事本身长什么样。
那 Loop Engineering 到底是什么
一句话:
Loop Engineering 就是设计一个让 AI 自我纠错的循环:你只定好三件事——要做什么、用什么标准判断做对没有、什么时候停;中间反复「做 → 自检 → 改」直到达标,全交给它自己跑。
我特别喜欢用一个对照来解释:
- Prompt engineering(写提示词),优化的是「我怎么跟 AI 把一句话说好」。
- Loop engineering(写循环),优化的是「让 AI 在一个什么形状的循环里反复跑」。
打个不太准、但好懂的比方。Prompt 像你给下属交代一件事,说得越清楚越好,可你还得盯着他每一步;Loop 像你给他立了条规矩——「改到测试全过为止,过不了别来找我」——然后你就能去喝咖啡了。前者你还在场,后者你下班了。
这个循环的雏形其实不新。2022 年的 ReAct(让模型「想一步、做一步、看结果、再想一步」)就是它。去年 7 月还有人搞过一个叫 Ralph 的东西,本质就是一行 bash 循环,硬是靠它花了大概 297 美元写出了一门编程语言。所以这个「圈」是老的,变的是我们往圈里塞了个会思考的大模型,让它当那个做决策的人。

它到底有什么用:杠杆点又挪了一格
过去几年,你的能力杠杆是「会写 prompt」;再往前,是「会写代码」。
现在这个杠杆点又挪了一格——变成「会设计循环」。因为一件事一旦被你定义成一个能自我纠错的循环,理论上你就能同时盯着好几个、甚至一批这样的循环替你干活,而不是一次只能伺候一个。
但这里我得踩个刹车,因为吹这件事的人太多了。
它不是银弹。几个让人清醒的数字:
- 有一项覆盖 306 位一线从业者的生产调研发现,68% 的生产环境 agent,在人介入之前只跑了不到 10 步。真正能用的系统大多是「小而受监督」的,不是科幻里那种成百上千的自治蜂群。
- Uber 这种体量的公司,据报道四个月就烧光了全年的 AI 预算,最后不得不给每人每个工具每月封顶 1500 美元。循环不设刹车,烧起钱来是会让你心梗的。
- 连最早把这个概念带火的那几个人里,Addy Osmani 自己都很克制,原话大意是:“我持怀疑态度,你一定得非常小心 token 成本。”
所以「一个人指挥 100 个 AI」——方向也许对,但今天它是个上限叙事,不是现状。我们别被带节奏。
怎么用:两个判断,外加一个小技巧
好,落到能上手的部分。手上有个活想交给 AI 自动循环,先别急着干,问自己两件事——最后我再送你一个每天都好用的小技巧。
判断一:这活适不适合上循环
我自己总结了四个粗筛问题,全是大白话:
- 能不能机器判对错? 有没有一个客观标准能说「这版行 / 不行」。代码能(跑个测试就知道),但「这文案够不够打动人」「这个战略对不对」,机器判不了。
- 判一次便宜吗、快吗? 这个「判对错」的动作,得比你自己重做一遍便宜得多,而且每一轮都能跑。跑个单元测试是毫秒级,很便宜;可要是每一轮都得请个专家人工评审,循环就卡死了。
- 错了能撤回吗? 中间出了烂结果,能不能廉价地回滚。在一个分支上写错代码,没事;可群发邮件、转账、删生产库——这些泼出去的水收不回来。
- 能拆成小块吗? 这活能不能切成一小步一小步,每步都小到 AI 能想清楚。
四个全是「能」,那这活就是循环的天堂——但别笼统地说「写代码」就行。准确讲,是有测试兜底的那部分编程:改个 bug、做完重构,跑一遍测试当场就知道成没成。可同样是敲键盘,「这个架构该怎么设计」就没这福气——它没有能当场打分的裁判。反过来,四个里只要有一个落在「不能」,就得当心了。

判断二:守住红线,没「裁判」的活别全自动
这条我想重点说,因为它最容易被误读。很多人以为循环是个万能加速器,其实它有条硬边界:
循环的好坏,约等于那个「裁判」的好坏。一个没有可靠裁判的循环,只是一台更快、更自信地产出垃圾的机器。
举个我自己的私货。我业余在做一个开源的 galgame(文字冒险游戏)内容生成项目。让 AI 循环去写代码、查 bug,很顺,因为「跑不跑得通」有明确裁判;可让它循环去写一段「好看的剧情」——卡住了。因为「好不好看」这件事,根本没有一个又便宜又靠谱的机器裁判。AI 能复制配方,却煲不出那锅「酱汁」。
这不怪 AI,是这个任务天生缺一个能打分的裁判。凡是落在「没法自动验收」这一格的活——纯创意、定方向、拍战略——你可以用 AI 生成草稿,但千万别全自动交付。

最后:一个我每天都在用的小技巧
最后送个特别实用的。当你想让 AI 帮你干个活、自己却一时说不清「我到底要什么」的时候——
别让它反过来问你一堆问题。让它先直接生成一版草稿,把所有它自己拿不准、替你做主的地方都标上「假设」,然后你只改错的那几处就行。
为什么这样更好?因为让你对着一个具体草稿「挑错」,比让你对着空白页「从零想清楚」,轻松一百倍。人脑擅长「认」,不擅长「凭空想」。好工具就该顺着这一点,把「想清楚」的负担从你身上卸下来,而不是甩给你一张问卷。
收个尾
所以我对 Loop Engineering 的判断是:门槛很高,但回馈很大。
门槛高在「为这个任务造一个又便宜、又靠谱、还自带停止判据的裁判」,这件事往往很难;回馈大在那些「裁判好造、却又极其吃你注意力」的活——海量代码审查、批量数据清洗、合规检查——一旦循环化,能把你整个人从重复劳动里捞出来。
那为什么有的循环会自信地烧着钱、产出垃圾,你定的标准它总能钻空子?说穿了,是因为 Loop Engineering 更像是强化学习换了身衣服:你定的那个「标准」,就是给模型的奖励;而它会拼了命去拿高分,哪怕用的是歪门邪道。这套机理,我放下一篇专门拆——会讲得更透,但也更硬核一点,得稍微懂些算法和模型原理。
所以这篇就记一句话:你手上的活,有没有一个又便宜又靠谱的裁判?有,循环就是你的杠杆;没有,再漂亮的循环也只是在更快地产出垃圾。 别再卷怎么写好一句 prompt 了,去盘点你手头那些活——哪些能交给一个会自我纠错的循环。
最后夹带点私货:我把这套判断——什么活能循环、怎么给它配个靠谱裁判——固化成了一个开源 skill,给 Claude / Codex 加载,让 AI 当个会说「这事你造不出裁判,别全自动」的诚实顾问。感兴趣的朋友可以拿去用、顺便给我点个 star:qingqingpi/loop-engineering-skill,下一篇我会拿它细讲。
我是孙鑫,一个做 Agent 方向的 AI 产品经理。这个系列记录我在 AI-native 时代摸爬滚打的一些真实思考,欢迎来 sunxin.xin 找我聊。