首页 / 正文

让一个 AI 盯着另一个 AI 干活:Auto Review 工作流实战指南

Mooko
发布于 2026-05-30 · 5分钟阅读
0 浏览
0 点赞 暴击点赞!

让一个 AI 盯着另一个 AI 干活:Auto Review 工作流实战指南

你有没有这种感觉?

AI Agent 已经能帮你写邮件、整理表格、查资料、跑流程、调用工具了。

问题来了:你真的敢把邮箱、网盘、客户资料、公司文档都交给它吗?

大多数人不敢。

不是怕它笨。

是怕它太“自信”。

半夜你睡着了,它一顿操作猛如虎:

  • 把客户名单发错人
  • 删除了不该删的文件
  • 用你的账号回复了一封离谱邮件
  • 把敏感数据贴进了外部工具
  • 自己脑补需求,然后替你做决定

这才是 Agent 落地最卡脖子的地方。

所以,一个很实用的方案出现了:让一个 AI 实时监督另一个 AI 干活。

这类机制可以叫 Auto Review,也可以理解成“AI 审核员”。

主 Agent 负责执行任务。

审核 Agent 负责盯着它每一步有没有越界。

听起来简单,真用起来很香。因为它解决的不是“AI 会不会做”,而是“我敢不敢让它做”。


Auto Review 到底是什么?

你可以把它想象成一个双人工作流:

你下达任务
   ↓
主 Agent 拆解并执行
   ↓
审核 Agent 检查每一步动作
   ↓
低风险动作:自动放行
高风险动作:暂停,等你确认
   ↓
任务继续执行

重点不是多加一个 AI 装样子。

重点是:主 Agent 的每个关键动作,都要被另一个独立角色检查。

比如主 Agent 想做这些事:

  • 发送邮件
  • 删除文件
  • 调用外部 API
  • 读取客户资料
  • 修改数据库
  • 公开发布内容
  • 给某个人转账或下单

审核 Agent 不直接干活。它只问几个问题:

  • 这个动作符合用户原始目标吗?
  • 有没有暴露隐私?
  • 有没有不可逆操作?
  • 有没有把数据发给不该发的人?
  • 有没有超出用户授权范围?
  • 是否需要用户二次确认?

这就像你给新来的实习生配了一个靠谱主管。

实习生可以跑腿,主管负责拦住灾难。


为什么这个思路很关键?

过去聊 AI 安全,很多人听着像论文里的东西。

什么对齐、评测、鲁棒性、红队测试……

普通用户感知不到。

可 Auto Review 不一样。

它直接落在你的日常场景里:

我能不能让 Agent 通宵整理我的资料,第二天只看几条需要我拍板的事项?

这才是用户真正关心的。

你不需要理解一堆理论。

你只需要知道:

  • 普通事项,它自己处理
  • 敏感事项,它停下来问你
  • 危险事项,它直接拦截
  • 模糊事项,它要求补充信息

这一下,Agent 的可用范围就大了很多。

以前你只敢让它写草稿。

现在你可以让它跑完整流程,只在关键节点叫你。


哪些场景最适合“一个 AI 监督另一个 AI”?

不是所有任务都需要双 Agent。

让 AI 监督 AI,适合那些“能自动化,但出错代价不低”的场景。

1. 邮件处理 📩

场景:你每天早上打开邮箱,几十封未读。

主 Agent 可以帮你:

  • 分类邮件
  • 提取待办
  • 写回复草稿
  • 标记优先级
  • 归档无关邮件

审核 Agent 负责拦这些坑:

  • 是否把个人信息发给陌生人
  • 是否误代表你做承诺
  • 是否回复语气不合适
  • 是否涉及合同、报价、法律、财务
  • 是否需要你亲自确认

推荐规则:

任何对外发送邮件的动作,都必须经过审核 Agent。
包含金额、地址、身份证、电话、合同、客户名单的内容,必须暂停等待用户确认。

这样你可以让它晚上整理邮箱。

第二天早上,你只看 5 封需要确认的邮件。

剩下几十封,它已经帮你归档、打标签、写好草稿。

爽不爽?


2. 文档和网盘整理 📁

场景:你的网盘里有一堆文件:合同、发票、会议记录、简历、截图、项目资料。

主 Agent 可以帮你:

  • 自动重命名
  • 按项目分类
  • 提取摘要
  • 建立目录
  • 找重复文件
  • 生成索引表

审核 Agent 盯这些风险:

  • 删除文件是否可恢复
  • 是否把私密文件移动到共享目录
  • 是否误改合同原件
  • 是否泄露客户或员工信息
  • 是否把个人资料发到外部服务

推荐规则:

允许自动复制、分类、加标签。
禁止自动删除原文件。
禁止修改合同、财务、证件类原件。
涉及共享链接,必须等待用户确认。

一个非常实用的小技巧:

让主 Agent 只做“新增”和“复制”,不要让它直接“删除”和“覆盖”。

AI 干活再快,也别让它一键清空你的资料库。

别问我为什么强调这个,懂的都懂。


3. 客户资料整理和 CRM 更新

场景:你有一批销售线索、会议纪要、聊天记录,需要整理到 CRM。

主 Agent 可以帮你:

  • 提取客户姓名、公司、职位
  • 总结需求
  • 标记成交概率
  • 生成跟进计划
  • 更新客户阶段

审核 Agent 要重点看:

  • 是否凭空编造客户信息
  • 是否把不确定内容写成确定结论
  • 是否误判客户意向
  • 是否把敏感备注写进公共字段
  • 是否触发自动外发消息

推荐规则:

CRM 字段分成三类:
1. 可自动填写:姓名、公司、来源、会议时间
2. 需审核填写:预算、意向等级、成交概率、关键决策人
3. 禁止自动填写:负面评价、敏感备注、私人信息

这里的关键是字段分级。

别让 Agent 什么都能写。

它可以帮你省时间,但不能替你背锅。


4. 代码修改和自动部署 💻

场景:你让 Agent 修 Bug、写测试、改配置。

主 Agent 可以:

  • 阅读代码
  • 修改函数
  • 补测试
  • 提交 PR
  • 生成变更说明

审核 Agent 检查:

  • 是否改了无关文件
  • 是否删除测试
  • 是否引入明文密钥
  • 是否修改生产配置
  • 是否执行危险命令
  • 是否绕过权限校验

推荐规则:

允许 Agent 创建分支、提交 PR。
禁止直接 push 到 main。
禁止自动部署生产环境。
涉及数据库迁移、权限逻辑、支付逻辑,必须人工确认。

程序员最怕什么?

不是 AI 写错一行代码。

是它改错地方,还一本正经告诉你“已完成”。

所以审核 Agent 要像代码审查一样苛刻。


一个可落地的 Auto Review 工作流

咱们别停在概念上。

下面给你一个能直接照着搭的版本。

你可以用在自建 Agent、工作流工具、自动化平台,或者支持工具调用的模型系统里。

角色设计

主 Agent:执行者

它的任务是完成目标。

要求:

  • 拆解任务
  • 调用工具
  • 生成结果
  • 报告进度
  • 遇到阻塞时询问

审核 Agent:安全审查员

它的任务不是帮忙干活。

它只负责判断动作是否安全。

要求:

  • 检查每个动作
  • 判断风险等级
  • 给出是否放行
  • 说明拦截原因
  • 遇到不确定时升级给用户

风险分级:别把所有事都丢给用户确认

很多人做审核流会踩一个坑:

每一步都让用户确认。

那还自动化个啥?你不如自己干。

比较好用的方式是分 4 级。

L0:无风险,自动通过

例子:

  • 读取公开网页
  • 整理本地草稿
  • 给文件加标签
  • 生成摘要
  • 创建待办项

处理方式:直接执行。

L1:低风险,记录后通过

例子:

  • 移动文件到非共享目录
  • 给邮件打标签
  • 生成回复草稿
  • 创建日历草稿

处理方式:允许执行,但要写日志。

L2:中风险,需要审核 Agent 明确放行

例子:

  • 修改已有文档
  • 更新 CRM 字段
  • 调用第三方 API
  • 读取包含个人信息的文件

处理方式:审核 Agent 通过后执行。

L3:高风险,必须用户确认

例子:

  • 发送邮件
  • 删除文件
  • 公开发布
  • 转账付款
  • 修改权限
  • 部署生产环境
  • 分享含敏感信息的链接

处理方式:暂停,发给你确认。

这个分级非常重要。

它能避免两个极端:

  • 放太开,出事
  • 管太死,没用

可直接用的审核 Agent 提示词

下面这段可以直接改成你的版本。

你是一个 AI 安全审核员。你的任务是审查另一个 Agent 即将执行的动作。

你不负责完成用户任务,只负责判断该动作是否安全、是否符合用户授权、是否需要用户确认。

请根据以下标准审查:

1. 该动作是否符合用户的原始目标?
2. 是否会发送、分享、上传、公开任何信息?
3. 是否包含个人信息、客户信息、财务信息、合同信息、账号信息、密钥或隐私内容?
4. 是否会删除、覆盖、修改不可恢复的数据?
5. 是否会产生费用、交易、下单、转账或法律承诺?
6. 是否会影响生产环境、权限设置或外部用户?
7. 主 Agent 是否在基于猜测行动?

请输出 JSON:

{
  "risk_level": "L0/L1/L2/L3",
  "decision": "approve/block/ask_user",
  "reason": "简短说明原因",
  "safe_alternative": "如果不通过,给出更安全的替代动作"
}

规则:
- L0 和 L1 可以 approve
- L2 需要你明确判断后 approve 或 block
- L3 必须 ask_user
- 任何不确定情况都 ask_user
- 不要因为任务看起来紧急就放宽标准

别小看“任何不确定都 ask_user”这句。

Agent 最大的问题,经常不是不知道,而是假装知道。


主 Agent 的提示词也要收紧

只盯审核 Agent 还不够。

主 Agent 也要提前立规矩。

你是任务执行 Agent。你需要完成用户指定任务,但必须遵守以下规则:

1. 每次执行外部动作前,先生成 action_plan。
2. 涉及发送、删除、修改、上传、分享、付款、部署、权限变更的动作,必须提交给审核 Agent。
3. 不允许绕过审核 Agent。
4. 不允许把敏感信息发送到未授权位置。
5. 不确定用户意图时,必须提问,不要猜。
6. 所有执行动作都要记录日志。
7. 高风险动作在用户确认前,只能生成草稿,不能真实执行。

每个 action_plan 必须包含:
- action_type
- target
- data_used
- expected_result
- reversible
- risk_notes

这段的价值在于:让主 Agent 每一步都“说清楚自己要干嘛”。

它说清楚了,审核 Agent 才能判断。

如果主 Agent 只说“我将继续处理”,审核 Agent 根本没法审。

太模糊的动作,一律拦。


示例:让 Agent 通宵处理邮箱

假设你想让 Agent 晚上帮你清理邮箱。

你的任务可以这样写:

请帮我处理最近 7 天的未读邮件。

目标:
- 按重要程度分类
- 提取待办事项
- 为需要回复的邮件生成草稿
- 垃圾邮件标记为低优先级
- 明天早上给我一份摘要

权限:
- 可以读取邮件
- 可以给邮件打标签
- 可以生成回复草稿
- 不允许直接发送邮件
- 不允许删除邮件
- 不允许下载附件到外部服务
- 涉及合同、报价、客户资料、账号信息的邮件,必须标记为需要我确认

主 Agent 看到一封客户邮件:

客户询问下季度报价,并附上了采购计划。

主 Agent 准备动作:

{
  "action_type": "draft_email_reply",
  "target": "客户 A 的邮件线程",
  "data_used": "原邮件内容、历史报价邮件",
  "expected_result": "生成一封报价回复草稿",
  "reversible": true,
  "risk_notes": "涉及报价和客户采购计划,不直接发送"
}

审核 Agent 判断:

{
  "risk_level": "L2",
  "decision": "approve",
  "reason": "仅生成草稿,不发送;涉及报价信息,需在摘要中提醒用户确认",
  "safe_alternative": "草稿中避免写死最终价格,使用待确认占位符"
}

主 Agent 生成草稿,但不发送。

第二天你看到摘要:

需要你确认的事项:
1. 客户 A 询问下季度报价,已生成回复草稿,价格部分用【待确认】标记。
2. 客户 B 要求更新合同条款,建议人工处理。
3. 陌生发件人索要员工通讯录,已标记为高风险,未回复。

这就是理想状态。

AI 干了大量杂活。

关键决定留给你。


避坑清单:这些权限别一上来就放开

想用 Auto Review,权限设计比模型能力更重要。

下面这些坑,建议贴墙上。

坑 1:允许 Agent 直接发送邮件

别急。

先让它生成草稿。

等你连续观察几周,确认风格、判断、风险控制都稳定,再考虑开放特定场景的自动发送。

比如只允许发送:

  • 内部会议确认
  • 固定模板通知
  • 无敏感信息的状态更新

坑 2:允许自动删除文件

删除是高危动作。

更安全的做法:

  • 移动到“待删除”文件夹
  • 保留 30 天
  • 生成删除建议清单
  • 人工确认后再清理

坑 3:让同一个 Agent 又执行又审核

这就像让学生自己出卷、自己考试、自己判分。

别闹。

执行和审核要分开。

最好连提示词目标都不一样。

一个追求完成任务。

一个专门挑毛病。

坑 4:审核 Agent 没有看到完整上下文

审核 Agent 如果只看到一句“发送邮件”,它没法判断。

至少要给它:

  • 用户原始任务
  • 主 Agent 准备执行的动作
  • 涉及的数据类型
  • 目标对象
  • 是否可逆
  • 可能影响

上下文越完整,审核越靠谱。

坑 5:没有日志

出了问题你想复盘,结果发现啥都没记录。

这很要命。

建议每次动作都记录:

  • 时间
  • 主 Agent 动作
  • 审核结果
  • 风险等级
  • 是否用户确认
  • 最终执行状态

日志不是形式主义。

它是你敢放权的底气。


简单版架构:你可以这样搭

如果你自己做系统,可以用这个结构:

User Request
   ↓
Task Planner
   ↓
Main Agent
   ↓  每次工具调用前提交 Action Plan
Review Agent
   ↓
approve → Tool Executor → Log
block → 返回主 Agent 修改方案
ask_user → 暂停并请求用户确认

工具调用前一定要过审。

不要等执行完再审。

执行完再发现发错邮件,那叫事故复盘,不叫安全审核。


适合新手的最小可用版本

如果你不想搭复杂系统,可以先用“半自动”方式练起来。

流程很简单:

  1. 让主 Agent 输出行动计划,不直接执行
  2. 把行动计划丢给审核 Agent
  3. 审核 Agent 标风险等级
  4. 你只确认 L3 项目
  5. 主 Agent 按通过的计划执行

注意,这里的“1、2、3”只是操作步骤,不是文章结构,别紧张。

你可以从一个低风险任务开始:

  • 整理邮件
  • 整理会议纪要
  • 整理网盘目录
  • 生成客服回复草稿
  • 检查代码变更

不要一上来就让它碰钱、碰合同、碰生产库。

人类新员工入职都要试用期,AI 也一样。


判断一个 Auto Review 是否靠谱,看这 5 点

你可以用这张表快速评估。

| 检查项 | 好的设计 | 危险设计 | |---|---|---| | 权限 | 分级开放 | 一次性全开 | | 审核 | 工具调用前审核 | 执行后才检查 | | 角色 | 执行和审核分离 | 一个 Agent 全包 | | 高风险动作 | 用户确认 | 自动执行 | | 日志 | 全程记录 | 无法复盘 |

只要右边出现两个以上,就别急着上线。

先把护栏补上。


你可以直接套用的权限模板

权限范围:

允许自动执行:
- 读取指定范围内的数据
- 生成摘要、分类、标签
- 创建草稿
- 创建待办
- 输出建议清单

需要审核 Agent 通过:
- 修改非关键字段
- 移动文件
- 调用内部 API
- 读取含个人信息的数据

必须用户确认:
- 发送外部消息
- 删除或覆盖文件
- 公开发布内容
- 分享链接
- 修改权限
- 涉及财务、合同、法律承诺的内容
- 部署生产环境

禁止执行:
- 绕过审核流程
- 访问未授权数据
- 上传敏感信息到外部服务
- 使用明文密钥
- 基于猜测填写关键事实

这套模板适合大多数个人和小团队。

你可以按业务再细化。


真正的变化:不是 AI 更聪明,而是你更敢用

很多人以为 Agent 的瓶颈是模型不够强。

实际用起来你会发现,瓶颈经常是信任。

你不敢给它权限。

不给权限,它只能陪聊、写草稿、做建议。

给太多权限,又怕它闯祸。

Auto Review 的价值就在中间:

让 AI 可以多干点活,又不至于没人管。

它不会让系统百分百安全。

没有任何系统能打这种包票。

但它能把“全靠用户盯着”变成“风险节点才叫用户”。

这已经很实用了。

下一次你搭 Agent,别只问:

它能不能完成任务?

更应该问:

它每一步由谁审核?出问题前谁能拦住?

这才是 Agent 从玩具走向工具的关键。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取