首页 / 正文

把模型当同事用:GPT-5.5 式 Agent 工作流实战(ChatGPT / Codex)

Mooko
发布于 2026-04-24 · 5分钟阅读
762 浏览
0 点赞 暴击点赞!

把模型当同事用:GPT-5.5 式 Agent 工作流实战(ChatGPT / Codex)

很多人看到“新模型发布”就只问一个问题:更聪明了吗?

更该问的是:能不能把一件复杂工作从头做到尾?

面向真实工作场景的模型,关键能力通常集中在三件事:

  • 能理解“复杂目标”(不是一句话需求那种)
  • 会主动用工具(文件、浏览器、代码环境、插件、系统操作)
  • 会自我检查(知道哪里可能错,能返工到可交付)

这套东西,我习惯叫它:把模型当“能干活的同事”来用。下面直接上可执行的打法。

备注:我没法替你验证某条截图/标题是不是官方发布。判断标准很简单:以你自己 ChatGPT/Codex 里能否选到对应模型、官方文档/控制台是否出现为准。


你真正需要的,不是“更强”,是“更能跑完流程”

所谓 Agent 体验,说白了就是:

  • 给它一个目标,它能把任务拆成一串动作
  • 中途遇到缺信息,会问你要、会自己去找(在你允许的工具范围内)
  • 做完会对照验收标准检查,不合格会继续改

你最直观的感受会是:

  • 以前你要盯着它一步步走,现在它能自己推进一段时间
  • 以前输出像“作文”,现在更像“交付件”(代码、表格、清单、报告、可运行脚本)

开工前 2 分钟:把“可控性”设好,不然后面一定翻车

1)确认你要它交付什么

别说“帮我做个方案”。改成这种:

  • 交付物:README + 里程碑计划 + 风险清单 + 可复制的执行步骤
  • 格式:Markdown表格
  • 时间范围:按 1 周能落地的版本

2)把工具权限讲清楚

你允许它用什么?不允许什么?

  • ✅ 允许:读取我上传的文件、使用代码执行器、访问指定网站
  • ❌ 不允许:登录账号、下单购买、执行不可逆操作

3)设“停止条件”,防止它无休止扩展

例子:

  • “最多给 2 套备选方案,选不出来就问我”
  • “查资料最多 15 分钟,超时给当前最可靠结论+不确定点”

通用 Agent 提示词模板(直接复制就能用)

把下面这段当你的“标准工单”。你每次只改【目标】和【约束】就行。

你现在扮演我的执行型 Agent。

【目标】
把 XXX 做到可交付:……(一句话说清终点)

【背景资料】
- 我会提供文件/链接:……
- 已知限制:……

【可用工具】
- 你可以使用:文件阅读、代码执行、浏览器搜索、插件(如有)
- 你不可以:登录我的账号、进行支付、删除不可恢复数据

【交付物】
- 必须输出:A、B、C
- 输出格式:Markdown,包含清单/表格

【验收标准】
- 满足:……(可检查、可量化)
- 必须列出:关键假设 + 风险 + 下一步

【工作方式】
- 先给“行动计划”(不超过 8 条),再执行
- 每完成一块就自检:哪里可能错?证据是什么?
- 信息不足就问我,不要瞎编

这段模板的价值是:把模型从“聊天模式”切到“交付模式”


场景 1:代理式编程(Agentic Coding)——让它写代码别只会“贴片段”

你想要的不是一段代码,你想要的是:

  • 能跑
  • 有测试
  • 能读懂(命名、注释、结构)
  • 有回滚/错误处理

实战任务:加一个功能并跑通测试

你可以这样下单:

目标:在现有项目里新增“批量导入 CSV”的功能,并提供单元测试。

约束:
- 不允许引入超过 1 个新依赖
- 兼容 Node 18
- 失败时给出可读错误信息

交付:
- 改动点列表
- 关键代码片段
- 测试用例
- 运行方式(命令行)

自检:
- 覆盖边界:空文件、超大文件、非法字段、重复数据

你要盯住的 3 个关键点

  • 让它先扫项目结构:目录树、入口文件、现有测试框架
  • 让它先写测试再补实现:能大幅减少“看起来对,跑不起来”
  • 让它输出变更清单:你 review 会轻松很多

场景 2:电脑操控(Computer Use)——把“点点点”外包出去 🖥️

最适合外包的工作长这样:

  • 页面步骤固定
  • 需要重复很多次
  • 你不想每天被这些琐事拖到晚下班

实战任务:整理一份竞品价格表

给它一个明确动作序列:

目标:从 5 个竞品官网整理“套餐价格/限制/是否含 API”的对比表。

规则:
- 每个竞品至少引用 1 个官方页面链接
- 遇到地区/币种切换,按“美元/月”统一
- 查不到就标记“未知”,并写明你查过哪里

交付:
- 一张对比表(Markdown 表格)
- 链接清单
- 不确定点列表

小提醒

  • 电脑操控最怕“你没说清楚就默认瞎点”。把禁区说清楚:不登录、不授权、不提交表单

场景 3:知识工作(Knowledge Work)——让它产出能直接发的文档

常见的“伪努力”是:让模型写一篇看似完整、实际空洞的报告。

解决办法:让它按交付结构写,而不是按“文章”写。

实战任务:写一份能开会的周报/项目复盘

直接用这个结构压住它:

  • 本周产出(可验证:链接/截图/PR/数据)
  • 关键决策(做了什么取舍,为什么)
  • 风险与阻塞(需要谁拍板)
  • 下周计划(按天拆到任务,标责任人/依赖)

提示词示例:

把我粘贴的工作记录整理成“能直接发到群里”的周报。

硬要求:
- 每条产出后面带证据(链接/数字/文件名)
- 把风险按“影响/概率/应对”写成表
- 任何含糊词(比如“优化了”“提升了”)都要改成具体结果

场景 4:早期科研/调研(Early Scientific Research)——它像个“迭代型研究搭子”

早期研究最折磨人的地方是:线索多、概念乱、方向摇摆。

你需要的是:

  • 研究地图(领域→子方向→代表方法)
  • 证据链(每个结论对应引用)
  • 可复现实验/验证思路(哪怕是小实验)

实战任务:把一个方向快速摸清

示例提示词:

方向:用 LLM 做“长程任务规划”的方法综述(偏工程落地)。

交付:
- 概念地图:关键术语+它们的关系
- 代表路线:每条路线 3 篇代表工作(给链接)
- 工程落地清单:做 demo 需要的组件/数据/评估指标
- 争议点:3 个争议点,每个争议点给两派观点与证据

规则:
- 不要编论文,不确定就标注“待核验”
- 只要 10 篇以内,但要“典型+高质量”

这种任务的爽点在于:你不用一次把问题问完。你可以让它一轮轮迭代,把图越画越清晰。


自我检查(Self-check)怎么写才有效:给它一张“质检单”

很多模型会“自检”,但你不给标准,它就会自嗨。

直接把质检项写死:

  • 检查 1:需求对齐(交付物是否齐全?有没有漏项?)
  • 检查 2:事实核验(引用是否存在?数据来源在哪里?)
  • 检查 3:可执行性(照着做能复现吗?缺哪些前置条件?)
  • 检查 4:风险提示(哪里最可能翻车?如何止损?)

你甚至可以加一句狠话:

“如果发现自己在猜,就停下来问我,不要继续写。”


速度不变、token 更省:你能怎么“薅到效率”?

如果模型延迟差不多,真正影响你体验的是两点:

  • 同样的任务,输出更短更准(token 更省)
  • 返工次数更少(你少催它、少改它)

你可以这样控成本:

  • 明确输出长度:比如“对比表不超过 30 行”
  • 要求“先给大纲,确认后再展开”
  • 要求“引用优先,观点靠后”(减少空话)

避坑清单(真的很常见)

  • 只说“做个 XX”,没说交付格式:它就写成一篇散文
  • 不给工具权限边界:它就会在你不想的地方乱试
  • 没有验收标准:它永远觉得自己写得不错
  • 一次塞太多目标:它会平均用力,结果样样不精
  • 让它“持续执行”但不给停止条件:能把你带进无尽分支地狱

一套你今天就能用的“Agent 工作流”

把复杂工作跑起来,用这个闭环就够了:

  • 目标(可交付)
  • 计划(8 条以内)
  • 执行(每块出结果)
  • 自检(按质检单)
  • 追问(缺信息就问)
  • 复盘(沉淀模板,下次直接复用)

你会发现:模型的“聪明”没那么玄学,你把工单写清楚,它就能更像人一样干活

想要我帮你把某个具体任务(写代码/做调研/写方案/做对比表)改成一份可直接投喂的 Agent 工单,把你的目标和素材丢过来就行。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取