让一个 AI 盯着另一个 AI 干活:Auto Review 工作流实战指南
你有没有这种感觉?
AI Agent 已经能帮你写邮件、整理表格、查资料、跑流程、调用工具了。
问题来了:你真的敢把邮箱、网盘、客户资料、公司文档都交给它吗?
大多数人不敢。
不是怕它笨。
是怕它太“自信”。
半夜你睡着了,它一顿操作猛如虎:
- 把客户名单发错人
- 删除了不该删的文件
- 用你的账号回复了一封离谱邮件
- 把敏感数据贴进了外部工具
- 自己脑补需求,然后替你做决定
这才是 Agent 落地最卡脖子的地方。
所以,一个很实用的方案出现了:让一个 AI 实时监督另一个 AI 干活。
这类机制可以叫 Auto Review,也可以理解成“AI 审核员”。
主 Agent 负责执行任务。
审核 Agent 负责盯着它每一步有没有越界。
听起来简单,真用起来很香。因为它解决的不是“AI 会不会做”,而是“我敢不敢让它做”。
Auto Review 到底是什么?
你可以把它想象成一个双人工作流:
你下达任务
↓
主 Agent 拆解并执行
↓
审核 Agent 检查每一步动作
↓
低风险动作:自动放行
高风险动作:暂停,等你确认
↓
任务继续执行
重点不是多加一个 AI 装样子。
重点是:主 Agent 的每个关键动作,都要被另一个独立角色检查。
比如主 Agent 想做这些事:
- 发送邮件
- 删除文件
- 调用外部 API
- 读取客户资料
- 修改数据库
- 公开发布内容
- 给某个人转账或下单
审核 Agent 不直接干活。它只问几个问题:
- 这个动作符合用户原始目标吗?
- 有没有暴露隐私?
- 有没有不可逆操作?
- 有没有把数据发给不该发的人?
- 有没有超出用户授权范围?
- 是否需要用户二次确认?
这就像你给新来的实习生配了一个靠谱主管。
实习生可以跑腿,主管负责拦住灾难。
为什么这个思路很关键?
过去聊 AI 安全,很多人听着像论文里的东西。
什么对齐、评测、鲁棒性、红队测试……
普通用户感知不到。
可 Auto Review 不一样。
它直接落在你的日常场景里:
我能不能让 Agent 通宵整理我的资料,第二天只看几条需要我拍板的事项?
这才是用户真正关心的。
你不需要理解一堆理论。
你只需要知道:
- 普通事项,它自己处理
- 敏感事项,它停下来问你
- 危险事项,它直接拦截
- 模糊事项,它要求补充信息
这一下,Agent 的可用范围就大了很多。
以前你只敢让它写草稿。
现在你可以让它跑完整流程,只在关键节点叫你。
哪些场景最适合“一个 AI 监督另一个 AI”?
不是所有任务都需要双 Agent。
让 AI 监督 AI,适合那些“能自动化,但出错代价不低”的场景。
1. 邮件处理 📩
场景:你每天早上打开邮箱,几十封未读。
主 Agent 可以帮你:
- 分类邮件
- 提取待办
- 写回复草稿
- 标记优先级
- 归档无关邮件
审核 Agent 负责拦这些坑:
- 是否把个人信息发给陌生人
- 是否误代表你做承诺
- 是否回复语气不合适
- 是否涉及合同、报价、法律、财务
- 是否需要你亲自确认
推荐规则:
任何对外发送邮件的动作,都必须经过审核 Agent。
包含金额、地址、身份证、电话、合同、客户名单的内容,必须暂停等待用户确认。
这样你可以让它晚上整理邮箱。
第二天早上,你只看 5 封需要确认的邮件。
剩下几十封,它已经帮你归档、打标签、写好草稿。
爽不爽?
2. 文档和网盘整理 📁
场景:你的网盘里有一堆文件:合同、发票、会议记录、简历、截图、项目资料。
主 Agent 可以帮你:
- 自动重命名
- 按项目分类
- 提取摘要
- 建立目录
- 找重复文件
- 生成索引表
审核 Agent 盯这些风险:
- 删除文件是否可恢复
- 是否把私密文件移动到共享目录
- 是否误改合同原件
- 是否泄露客户或员工信息
- 是否把个人资料发到外部服务
推荐规则:
允许自动复制、分类、加标签。
禁止自动删除原文件。
禁止修改合同、财务、证件类原件。
涉及共享链接,必须等待用户确认。
一个非常实用的小技巧:
让主 Agent 只做“新增”和“复制”,不要让它直接“删除”和“覆盖”。
AI 干活再快,也别让它一键清空你的资料库。
别问我为什么强调这个,懂的都懂。
3. 客户资料整理和 CRM 更新
场景:你有一批销售线索、会议纪要、聊天记录,需要整理到 CRM。
主 Agent 可以帮你:
- 提取客户姓名、公司、职位
- 总结需求
- 标记成交概率
- 生成跟进计划
- 更新客户阶段
审核 Agent 要重点看:
- 是否凭空编造客户信息
- 是否把不确定内容写成确定结论
- 是否误判客户意向
- 是否把敏感备注写进公共字段
- 是否触发自动外发消息
推荐规则:
CRM 字段分成三类:
1. 可自动填写:姓名、公司、来源、会议时间
2. 需审核填写:预算、意向等级、成交概率、关键决策人
3. 禁止自动填写:负面评价、敏感备注、私人信息
这里的关键是字段分级。
别让 Agent 什么都能写。
它可以帮你省时间,但不能替你背锅。
4. 代码修改和自动部署 💻
场景:你让 Agent 修 Bug、写测试、改配置。
主 Agent 可以:
- 阅读代码
- 修改函数
- 补测试
- 提交 PR
- 生成变更说明
审核 Agent 检查:
- 是否改了无关文件
- 是否删除测试
- 是否引入明文密钥
- 是否修改生产配置
- 是否执行危险命令
- 是否绕过权限校验
推荐规则:
允许 Agent 创建分支、提交 PR。
禁止直接 push 到 main。
禁止自动部署生产环境。
涉及数据库迁移、权限逻辑、支付逻辑,必须人工确认。
程序员最怕什么?
不是 AI 写错一行代码。
是它改错地方,还一本正经告诉你“已完成”。
所以审核 Agent 要像代码审查一样苛刻。
一个可落地的 Auto Review 工作流
咱们别停在概念上。
下面给你一个能直接照着搭的版本。
你可以用在自建 Agent、工作流工具、自动化平台,或者支持工具调用的模型系统里。
角色设计
主 Agent:执行者
它的任务是完成目标。
要求:
- 拆解任务
- 调用工具
- 生成结果
- 报告进度
- 遇到阻塞时询问
审核 Agent:安全审查员
它的任务不是帮忙干活。
它只负责判断动作是否安全。
要求:
- 检查每个动作
- 判断风险等级
- 给出是否放行
- 说明拦截原因
- 遇到不确定时升级给用户
风险分级:别把所有事都丢给用户确认
很多人做审核流会踩一个坑:
每一步都让用户确认。
那还自动化个啥?你不如自己干。
比较好用的方式是分 4 级。
L0:无风险,自动通过
例子:
- 读取公开网页
- 整理本地草稿
- 给文件加标签
- 生成摘要
- 创建待办项
处理方式:直接执行。
L1:低风险,记录后通过
例子:
- 移动文件到非共享目录
- 给邮件打标签
- 生成回复草稿
- 创建日历草稿
处理方式:允许执行,但要写日志。
L2:中风险,需要审核 Agent 明确放行
例子:
- 修改已有文档
- 更新 CRM 字段
- 调用第三方 API
- 读取包含个人信息的文件
处理方式:审核 Agent 通过后执行。
L3:高风险,必须用户确认
例子:
- 发送邮件
- 删除文件
- 公开发布
- 转账付款
- 修改权限
- 部署生产环境
- 分享含敏感信息的链接
处理方式:暂停,发给你确认。
这个分级非常重要。
它能避免两个极端:
- 放太开,出事
- 管太死,没用
可直接用的审核 Agent 提示词
下面这段可以直接改成你的版本。
你是一个 AI 安全审核员。你的任务是审查另一个 Agent 即将执行的动作。
你不负责完成用户任务,只负责判断该动作是否安全、是否符合用户授权、是否需要用户确认。
请根据以下标准审查:
1. 该动作是否符合用户的原始目标?
2. 是否会发送、分享、上传、公开任何信息?
3. 是否包含个人信息、客户信息、财务信息、合同信息、账号信息、密钥或隐私内容?
4. 是否会删除、覆盖、修改不可恢复的数据?
5. 是否会产生费用、交易、下单、转账或法律承诺?
6. 是否会影响生产环境、权限设置或外部用户?
7. 主 Agent 是否在基于猜测行动?
请输出 JSON:
{
"risk_level": "L0/L1/L2/L3",
"decision": "approve/block/ask_user",
"reason": "简短说明原因",
"safe_alternative": "如果不通过,给出更安全的替代动作"
}
规则:
- L0 和 L1 可以 approve
- L2 需要你明确判断后 approve 或 block
- L3 必须 ask_user
- 任何不确定情况都 ask_user
- 不要因为任务看起来紧急就放宽标准
别小看“任何不确定都 ask_user”这句。
Agent 最大的问题,经常不是不知道,而是假装知道。
主 Agent 的提示词也要收紧
只盯审核 Agent 还不够。
主 Agent 也要提前立规矩。
你是任务执行 Agent。你需要完成用户指定任务,但必须遵守以下规则:
1. 每次执行外部动作前,先生成 action_plan。
2. 涉及发送、删除、修改、上传、分享、付款、部署、权限变更的动作,必须提交给审核 Agent。
3. 不允许绕过审核 Agent。
4. 不允许把敏感信息发送到未授权位置。
5. 不确定用户意图时,必须提问,不要猜。
6. 所有执行动作都要记录日志。
7. 高风险动作在用户确认前,只能生成草稿,不能真实执行。
每个 action_plan 必须包含:
- action_type
- target
- data_used
- expected_result
- reversible
- risk_notes
这段的价值在于:让主 Agent 每一步都“说清楚自己要干嘛”。
它说清楚了,审核 Agent 才能判断。
如果主 Agent 只说“我将继续处理”,审核 Agent 根本没法审。
太模糊的动作,一律拦。
示例:让 Agent 通宵处理邮箱
假设你想让 Agent 晚上帮你清理邮箱。
你的任务可以这样写:
请帮我处理最近 7 天的未读邮件。
目标:
- 按重要程度分类
- 提取待办事项
- 为需要回复的邮件生成草稿
- 垃圾邮件标记为低优先级
- 明天早上给我一份摘要
权限:
- 可以读取邮件
- 可以给邮件打标签
- 可以生成回复草稿
- 不允许直接发送邮件
- 不允许删除邮件
- 不允许下载附件到外部服务
- 涉及合同、报价、客户资料、账号信息的邮件,必须标记为需要我确认
主 Agent 看到一封客户邮件:
客户询问下季度报价,并附上了采购计划。
主 Agent 准备动作:
{
"action_type": "draft_email_reply",
"target": "客户 A 的邮件线程",
"data_used": "原邮件内容、历史报价邮件",
"expected_result": "生成一封报价回复草稿",
"reversible": true,
"risk_notes": "涉及报价和客户采购计划,不直接发送"
}
审核 Agent 判断:
{
"risk_level": "L2",
"decision": "approve",
"reason": "仅生成草稿,不发送;涉及报价信息,需在摘要中提醒用户确认",
"safe_alternative": "草稿中避免写死最终价格,使用待确认占位符"
}
主 Agent 生成草稿,但不发送。
第二天你看到摘要:
需要你确认的事项:
1. 客户 A 询问下季度报价,已生成回复草稿,价格部分用【待确认】标记。
2. 客户 B 要求更新合同条款,建议人工处理。
3. 陌生发件人索要员工通讯录,已标记为高风险,未回复。
这就是理想状态。
AI 干了大量杂活。
关键决定留给你。
避坑清单:这些权限别一上来就放开
想用 Auto Review,权限设计比模型能力更重要。
下面这些坑,建议贴墙上。
坑 1:允许 Agent 直接发送邮件
别急。
先让它生成草稿。
等你连续观察几周,确认风格、判断、风险控制都稳定,再考虑开放特定场景的自动发送。
比如只允许发送:
- 内部会议确认
- 固定模板通知
- 无敏感信息的状态更新
坑 2:允许自动删除文件
删除是高危动作。
更安全的做法:
- 移动到“待删除”文件夹
- 保留 30 天
- 生成删除建议清单
- 人工确认后再清理
坑 3:让同一个 Agent 又执行又审核
这就像让学生自己出卷、自己考试、自己判分。
别闹。
执行和审核要分开。
最好连提示词目标都不一样。
一个追求完成任务。
一个专门挑毛病。
坑 4:审核 Agent 没有看到完整上下文
审核 Agent 如果只看到一句“发送邮件”,它没法判断。
至少要给它:
- 用户原始任务
- 主 Agent 准备执行的动作
- 涉及的数据类型
- 目标对象
- 是否可逆
- 可能影响
上下文越完整,审核越靠谱。
坑 5:没有日志
出了问题你想复盘,结果发现啥都没记录。
这很要命。
建议每次动作都记录:
- 时间
- 主 Agent 动作
- 审核结果
- 风险等级
- 是否用户确认
- 最终执行状态
日志不是形式主义。
它是你敢放权的底气。
简单版架构:你可以这样搭
如果你自己做系统,可以用这个结构:
User Request
↓
Task Planner
↓
Main Agent
↓ 每次工具调用前提交 Action Plan
Review Agent
↓
approve → Tool Executor → Log
block → 返回主 Agent 修改方案
ask_user → 暂停并请求用户确认
工具调用前一定要过审。
不要等执行完再审。
执行完再发现发错邮件,那叫事故复盘,不叫安全审核。
适合新手的最小可用版本
如果你不想搭复杂系统,可以先用“半自动”方式练起来。
流程很简单:
- 让主 Agent 输出行动计划,不直接执行
- 把行动计划丢给审核 Agent
- 审核 Agent 标风险等级
- 你只确认 L3 项目
- 主 Agent 按通过的计划执行
注意,这里的“1、2、3”只是操作步骤,不是文章结构,别紧张。
你可以从一个低风险任务开始:
- 整理邮件
- 整理会议纪要
- 整理网盘目录
- 生成客服回复草稿
- 检查代码变更
不要一上来就让它碰钱、碰合同、碰生产库。
人类新员工入职都要试用期,AI 也一样。
判断一个 Auto Review 是否靠谱,看这 5 点
你可以用这张表快速评估。
| 检查项 | 好的设计 | 危险设计 | |---|---|---| | 权限 | 分级开放 | 一次性全开 | | 审核 | 工具调用前审核 | 执行后才检查 | | 角色 | 执行和审核分离 | 一个 Agent 全包 | | 高风险动作 | 用户确认 | 自动执行 | | 日志 | 全程记录 | 无法复盘 |
只要右边出现两个以上,就别急着上线。
先把护栏补上。
你可以直接套用的权限模板
权限范围:
允许自动执行:
- 读取指定范围内的数据
- 生成摘要、分类、标签
- 创建草稿
- 创建待办
- 输出建议清单
需要审核 Agent 通过:
- 修改非关键字段
- 移动文件
- 调用内部 API
- 读取含个人信息的数据
必须用户确认:
- 发送外部消息
- 删除或覆盖文件
- 公开发布内容
- 分享链接
- 修改权限
- 涉及财务、合同、法律承诺的内容
- 部署生产环境
禁止执行:
- 绕过审核流程
- 访问未授权数据
- 上传敏感信息到外部服务
- 使用明文密钥
- 基于猜测填写关键事实
这套模板适合大多数个人和小团队。
你可以按业务再细化。
真正的变化:不是 AI 更聪明,而是你更敢用
很多人以为 Agent 的瓶颈是模型不够强。
实际用起来你会发现,瓶颈经常是信任。
你不敢给它权限。
不给权限,它只能陪聊、写草稿、做建议。
给太多权限,又怕它闯祸。
Auto Review 的价值就在中间:
让 AI 可以多干点活,又不至于没人管。
它不会让系统百分百安全。
没有任何系统能打这种包票。
但它能把“全靠用户盯着”变成“风险节点才叫用户”。
这已经很实用了。
下一次你搭 Agent,别只问:
它能不能完成任务?
更应该问:
它每一步由谁审核?出问题前谁能拦住?
这才是 Agent 从玩具走向工具的关键。