文章作者、来源:技术博客 编者按:Claude Code 正在从一个代码助手,变成一个可编排的 Agent 工作台。 本文介绍的 workflows(工作流),核心价值在于让 Claude 不再只是在同一个上下文窗口里「想完再做」,而是可以根据任务动态生成一套执行框架:拆分任务、派发子 Agent、并行处理、交叉验证、文章作者、来源:技术博客 编者按:Claude Code 正在从一个代码助手,变成一个可编排的 Agent 工作台。 本文介绍的 workflows(工作流),核心价值在于让 Claude 不再只是在同一个上下文窗口里「想完再做」,而是可以根据任务动态生成一套执行框架:拆分任务、派发子 Agent、并行处理、交叉验证、

Claude Code 推出动态工作流:让AI学会自己组队干活

2026/06/04 10:24
阅读时长 25 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:技术博客

编者按:Claude Code 正在从一个代码助手,变成一个可编排的 Agent 工作台。

本文介绍的 workflows(工作流),核心价值在于让 Claude 不再只是在同一个上下文窗口里「想完再做」,而是可以根据任务动态生成一套执行框架:拆分任务、派发子 Agent、并行处理、交叉验证、循环迭代,甚至让不同 Agent 彼此竞争,最后再综合结果。

这意味着,Claude Code 的使用场景正在明显外溢。它不只适用于代码迁移、重构、测试复现和代码审查,也可以用于深度研究、事实核查、简历筛选、事故复盘、规则沉淀、商业计划评审、命名 brainstorm 等非技术任务。很多复杂工作本质上都和编程相似:需要拆解问题、隔离上下文、验证假设、处理大量细节,并在多个候选路径中做选择。

动态 workflows 试图解决的,正是大模型在长任务中常见的几个问题:做到一半就宣布完成的「智能体惰性」、倾向认可自己结论的「自我偏好偏差」,以及多轮执行后逐渐偏离原始目标的「目标漂移」。通过把任务交给多个拥有独立上下文的 Claude,它将复杂任务从「单 Agent 长跑」改造成「多 Agent 协同」。

当然,workflows 也不是万能答案。它通常会消耗更多 token,也未必适合每一个普通编码任务。但它提供了一个很重要的方向:未来 AI 工具的竞争,可能不只在于单个模型有多聪明,而在于它能否围绕复杂目标,组织出一套可靠、可复用、可审查的执行流程。

以下为原文:

虽然默认的 Claude Code 执行框架是为编程构建的,但它也适用于许多其他类型的任务。事实证明,很多任务在结构上都很像编程任务。不过,有些特定任务类型要想达到最佳表现,我们仍然需要在 Claude Code 之上构建定制化执行框架,例如研究、安全分析、智能体团队协作,或代码审查。

Workflows(工作流)允许你动态创建执行框架,让 Claude 能够更原生地在 Claude Code 内部解决上述问题,以及更多类型的问题。你也可以与他人共享、复用这些工作流。

在本文中,我会分享自己最初使用 workflows 的经验和心得,帮助你更充分地发挥它的能力。

不过需要说明的是,相关最佳实践仍在形成中。动态工作流通常会消耗更多 token,因此你需要认真考虑何时使用、如何使用。

注:本文也发布在 Claude Blog 上。

示例 Prompt

在进入技术细节之前,我想先给出一些示例 prompt,帮助你理解 workflows 的可能性:

「这个测试大概每 50 次运行会失败 1 次。搭建一个 workflow 来复现它,提出假设,并在不同 worktree 中进行对抗式测试。/goal 不要停止,直到有一个假设被验证成立。」

「使用 workflow,回顾我最近 50 次会话,从中挖掘我反复做出的纠正,并把这些重复出现的问题转化为 CLAUDE.md 规则。」

「使用 workflow,翻查过去六个月 Slack 的 #incidents 频道,找出那些反复出现、但没人提交 ticket 的根本原因。」

「拿我的商业计划书跑一个 workflow,让不同 agent 分别从投资人、客户和竞争对手的角度来拆解它。」

「这里有一个包含 80 份简历的文件夹。使用 workflow,按照后端岗位要求对它们进行排序,并复核前十名。通过 AskUserQuestion 工具向我提问,帮你建立评价标准。」

「我需要给这个 CLI 工具取名。使用 workflow 头脑风暴一批选项,再通过锦标赛机制选出前三名。」

「使用 workflow,把我们的 User 模型在所有地方都重命名为 Account。」

「阅读我的博客草稿,并使用 workflow 对照代码库验证其中每一个技术判断。我不想发布任何错误内容。」

动态工作流如何运作

动态工作流会执行一个 JavaScript 文件,其中包含若干特殊函数,用来生成和协调子智能体。

动态工作流也包含标准 JavaScript 函数,例如 JSON、Math 和 Array,用于处理数据。

尤其值得注意的是,动态工作流可以决定某个 agent 使用哪一种模型,也可以决定子 agent 是否在自己的 worktree 中运行。这使得 Claude 可以根据任务需要,自主选择所需的智能水平和隔离程度。

如果一个 workflow 被中断,例如用户手动操作,或终端退出,恢复会话后,该 workflow 可以从中断处继续执行。

为什么需要动态工作流

当你让默认的 Claude Code 执行框架处理一个任务时,它需要在同一个上下文窗口里同时完成规划和执行。对于很多编程任务来说,这种方式非常有效,但在长时间运行、大规模并行,或高度结构化的对抗性任务中,它有时会失效。

原因在于,当 Claude 在单一上下文窗口中处理复杂任务的时间越长,它就越容易出现几类特定的失败模式:

Agentic laziness(智能体惰性),指的是 Claude 在处理特别复杂、由多个部分组成的任务时,还没有真正完成就提前停止,并在只取得部分进展后宣称任务已完成。例如,在安全审查中只处理了 50 个项目中的 20 个,就宣布工作结束。

Self-preferential bias(自我偏好偏差),指的是 Claude 倾向于偏好自己的结果或发现,尤其是在被要求根据某套评价标准验证或评判自己产出的内容时。

Goal drift(目标漂移),指的是在多轮执行过程中,Claude 对最初目标的忠实度逐渐下降,尤其是在上下文被压缩之后。每一次总结都会造成信息损失,一些细节要求,例如边缘情况,或「不要做 X」这类限制条件,都可能被遗失。

创建 workflow 有助于缓解这些问题,因为它可以编排多个独立的 Claude,让它们拥有各自的上下文窗口,并专注于相互隔离、目标明确的任务。

动态工作流与静态工作流

你之前可能已经通过 Claude Agent SDK 或 claude -p 创建过静态工作流,用来协调多个 Claude Code 实例。

但由于静态工作流需要覆盖各种边缘情况,它们通常更通用。随着 Claude Opus 4.8 和动态工作流的出现,Claude 现在已经足够智能,可以为你的具体使用场景编写一个量身定制的执行框架。

使用动态工作流时的实用模式

你可以直接让 Claude 创建一个动态工作流,也可以使用触发词「ultracode」,确保 Claude Code 创建 workflow。

不过,如果你能建立起关于动态工作流如何运作的心智模型,就更容易判断什么时候应该使用它,也更容易通过 prompt 对 Claude 进行引导。

Claude 在构建 workflows 时,常见会使用并组合以下几种模式:

分类并执行:使用一个分类 agent 判断任务类型,然后根据任务类型路由到不同的 agent 或行为。也可以在流程末尾使用分类器来判断输出结果。

扇出并综合:把一个任务拆成多个更小的步骤,让每一步都由一个 agent 处理,最后再综合这些结果。这种方式尤其适合任务中包含大量小步骤的情况,或每个步骤都需要一个干净的上下文窗口,避免相互干扰或交叉污染的情况。综合步骤相当于一个「屏障」:它会等待所有扇出的 agent 完成,然后把它们的结构化输出合并成一个结果。

对抗式验证:对于每一个被生成出来的 agent,再运行一个独立的 agent,按照某套评价标准或准则对其输出进行对抗式验证。

生成并筛选:围绕一个主题生成大量想法,然后根据评价标准或验证流程进行筛选,去除重复项,只返回经过测试、质量最高的想法。

锦标赛:不是把工作拆分,而是让 agent 彼此竞争。生成 N 个 agent,让它们分别用不同方法尝试完成同一个任务。随后由 prompt 或模型通过评审 agent 对结果进行两两比较,直到选出胜者。

循环直到完成:对于工作量未知的任务,不要设置固定轮次,而是循环生成 agent,直到满足停止条件,例如不再出现新的发现,或日志中不再出现错误。

使用场景

你可以更有创造性地思考什么时候、如何让 Claude Code 创建动态工作流。我发现 workflows 有时在非技术工作中甚至更有用。

迁移与重构

Bun 曾使用 workflows 从 Zig 重写为 Rust。你可以阅读 Jarred 在 X 上的帖子,了解具体过程。

关键在于,把任务拆成一系列需要处理的步骤,例如调用点、失败测试、模块等。为每个修复任务在 worktree 中启动一个子 agent,让它完成修复;随后再让另一个 agent 进行对抗式审查,最后合并结果。你可以考虑明确告诉 agent,不要使用资源消耗过高的命令,这样就可以最大化并行程度,而不会耗尽本地机器资源。

深度研究

我们在 Claude Code 中发布了一个 deep research skill(/deep-research),它使用的就是动态工作流。具体来说,它会扇出执行网页搜索,抓取来源,对相关主张进行对抗式验证,并综合生成一份带引用的报告。

但这类研究并不只适用于网页搜索。例如,你也可以让 Claude 从 Slack 上下文中整理一份状态报告,或通过深入探索代码库来研究某个功能是如何工作的。

深度验证

另一方面,如果你有一份报告,并希望核查其中引用的每一个事实性判断和来源,就可以生成一个 workflow:先由一个 agent 识别所有事实性主张,然后为每一个主张启动一个子 agent 进行细致核查。你还可以让一个验证 agent 检查负责溯源的子 agent,确保其来源质量足够高。

排序

你可能有一组项目,希望按照某种定性指标进行排序,而你相信 Claude Code 擅长评估这种指标。例如,按照 bug 严重程度给支持工单排序。

但如果你试图在一个 prompt 中排序 1000 多行内容,质量就会下降,而且上下文窗口也容纳不下。更好的做法是运行锦标赛机制,建立一条由两两比较 agent 组成的流水线,因为比较式判断通常比绝对打分更可靠;或者先并行分桶排序,再合并结果。每一次比较都是一个独立 agent 完成的,因此确定性循环可以维持整个赛程结构,只有当前运行顺序需要保留在上下文中。

记忆与规则遵守

如果你有一组特定规则,而 Claude 即使在 CLAUDE.md 中看到这些规则,仍然经常遗漏或执行不好,那么可以创建一个 workflow,把这些规则列出来,并让验证 agent 逐条检查——每条规则对应一个验证 agent。创建一个「怀疑者」人格的子 agent 来审查这些规则是否合理,也有助于避免过多误报。

反过来也可以:挖掘你最近的会话和代码审查评论,找出你反复做出的纠正;让并行 agent 对这些问题进行聚类;再对每个候选规则进行对抗式验证,判断它是否真的能防止某个真实错误;最后把通过筛选的规则提炼回 CLAUDE.md 中。

根因调查

调试最有效的方式,是提出几个相互独立的假设,并逐一测试。但如果你只使用一个上下文窗口,Claude 可能会陷入自我偏好偏差。

workflow 可以从结构上防止这种情况:它可以启动多个 agent,让它们基于互不重叠的证据分别生成假设。例如,让不同 agent 分别查看日志、文件和数据。随后,每个假设都可以接受一组验证者和反驳者的审查。

这并不只适用于代码。workflows 也可以用于销售分析,例如「为什么三月销售额下降了?」;用于数据工程,例如「为什么这条 pipeline 失败了?」;或用于任何事后复盘。

大规模分诊

每个团队都有支持队列、bug 报告,或其他无法完全由人类处理的积压事项。一个分诊 workflow 可以对每个项目进行分类,与已经被追踪的问题去重,并采取行动。这可能意味着尝试修复,也可能意味着升级给人类用户处理。

对于分诊工作流,一个有用的模式是 quarantine(隔离)。也就是说,禁止那些读取不可信公开内容的 agent 执行高权限操作;高权限操作应由专门负责行动的 agent 来完成。

你可以把分诊 workflows 与 /loop 搭配使用,让 Claude 持续执行这类任务。

探索与品味判断

当你需要探索解决方案的不同路径,尤其是设计、命名这类带有审美判断的任务,并且可以受益于一套评价标准时,workflows 很有用。

你可以让 Claude 探索大量方案,并给审查 agent 一套关于「好方案是什么样」的评价标准。当审查 agent 认为结果已经满足标准时,任务就完成了。不同方案也可以根据这套评价标准,通过锦标赛机制进行排序或筛选。

Evals(评测)

你可以通过在 worktree 中启动独立 agent,再启动比较 agent,根据评价标准比较和打分具体输出,从而为特定任务运行轻量级 evals。例如,你可以评估并改进自己创建的某个 skill,看它是否满足某些特定标准。

模型与智能水平路由:你可以创建一个针对自己任务调优的分类 agent,让它决定使用哪一种模型。当任务会涉及大量工具调用,并且在执行前进行研究可以帮助识别最合适模型时,这种方式会很有用。

例如,对于「解释 auth 模块如何工作」这个任务来说,最合适的模型取决于 auth 模块里有多少文件,以及代码库结构是什么样。分类 agent 可以先完成这项研究,再根据预期复杂度,把任务路由给 Sonnet 或 Opus。

什么时候不该使用动态工作流

workflows 仍然是新东西。虽然在许多使用场景中,它可以带来远超常规方式的效果,但并不是每个任务都需要它,而且它可能显著增加 token 消耗。

最好把 workflows 用在那些能以新方式拓展 Claude Code 能力边界的任务上。对于常规编程任务,你可以先问自己:这个任务真的需要更多计算资源吗?例如,大多数传统编程任务并不需要一个由 5 名审查者组成的小组。

构建动态工作流的技巧

Prompt 设计

为动态工作流写 prompt 时,细节越充分,效果通常越好,尤其是使用上文提到的具体技巧。

workflows 并不只适用于大型任务。你也可以提示模型使用一个「quick workflow」。例如,你可以创建一个快速的对抗式审查流程,用来检查某个假设。

与 /goal 和 /loop 结合使用

当你使用可以重复执行的 workflows,例如分诊、研究或验证工作流时,可以把它们与 /loop 搭配,让它们按固定间隔运行;同时用 /goal 设置硬性的完成要求。

Token 使用预算

你可以为动态工作流设置明确的 token 使用预算,以限制任务消耗的 token 数量。你可以在 prompt 中写入类似「use 10k tokens」的预算要求,它会把上限设置为 10k token。

保存与共享动态工作流

你可以在 workflow 菜单中按下「s」来保存 workflows。你可以把它们提交到 ~/.claude/workflows,也可以通过 skill 分发。

如果想通过 skill 共享它们,可以把 JavaScript workflow 文件放进 skill 文件夹,并在 SKILL.md 中引用。为了获得更大的灵活性,你也可以提示 Claude:把 skill 中的 workflows 视为模板,而不是必须逐字运行的脚本。

一个全新的世界

workflows 是扩展 Claude Code 的一种有用新方式。我鼓励你把它视为一个起点。关于如何最好地使用它,我们还有许多东西需要探索。欢迎告诉我们你的发现。

SPACEX(PRE) Launchpad

SPACEX(PRE) LaunchpadSPACEX(PRE) Launchpad

注册即有机会获得免费抽奖资格

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

MEXC×持牌券商:真实美股已上线

MEXC×持牌券商:真实美股已上线MEXC×持牌券商:真实美股已上线

用USDT买入真实美股,100%持股享分红权益,上线期间0费率