把模型当同事用:GPT-5.5 式 Agent 工作流实战(ChatGPT / Codex)
很多人看到“新模型发布”就只问一个问题:更聪明了吗?
更该问的是:能不能把一件复杂工作从头做到尾?
面向真实工作场景的模型,关键能力通常集中在三件事:
- 能理解“复杂目标”(不是一句话需求那种)
- 会主动用工具(文件、浏览器、代码环境、插件、系统操作)
- 会自我检查(知道哪里可能错,能返工到可交付)
这套东西,我习惯叫它:把模型当“能干活的同事”来用。下面直接上可执行的打法。
备注:我没法替你验证某条截图/标题是不是官方发布。判断标准很简单:以你自己 ChatGPT/Codex 里能否选到对应模型、官方文档/控制台是否出现为准。
你真正需要的,不是“更强”,是“更能跑完流程”
所谓 Agent 体验,说白了就是:
- 给它一个目标,它能把任务拆成一串动作
- 中途遇到缺信息,会问你要、会自己去找(在你允许的工具范围内)
- 做完会对照验收标准检查,不合格会继续改
你最直观的感受会是:
- 以前你要盯着它一步步走,现在它能自己推进一段时间
- 以前输出像“作文”,现在更像“交付件”(代码、表格、清单、报告、可运行脚本)
开工前 2 分钟:把“可控性”设好,不然后面一定翻车
1)确认你要它交付什么
别说“帮我做个方案”。改成这种:
- 交付物:
README + 里程碑计划 + 风险清单 + 可复制的执行步骤 - 格式:
Markdown或表格 - 时间范围:
按 1 周能落地的版本
2)把工具权限讲清楚
你允许它用什么?不允许什么?
- ✅ 允许:读取我上传的文件、使用代码执行器、访问指定网站
- ❌ 不允许:登录账号、下单购买、执行不可逆操作
3)设“停止条件”,防止它无休止扩展
例子:
- “最多给 2 套备选方案,选不出来就问我”
- “查资料最多 15 分钟,超时给当前最可靠结论+不确定点”
通用 Agent 提示词模板(直接复制就能用)
把下面这段当你的“标准工单”。你每次只改【目标】和【约束】就行。
你现在扮演我的执行型 Agent。
【目标】
把 XXX 做到可交付:……(一句话说清终点)
【背景资料】
- 我会提供文件/链接:……
- 已知限制:……
【可用工具】
- 你可以使用:文件阅读、代码执行、浏览器搜索、插件(如有)
- 你不可以:登录我的账号、进行支付、删除不可恢复数据
【交付物】
- 必须输出:A、B、C
- 输出格式:Markdown,包含清单/表格
【验收标准】
- 满足:……(可检查、可量化)
- 必须列出:关键假设 + 风险 + 下一步
【工作方式】
- 先给“行动计划”(不超过 8 条),再执行
- 每完成一块就自检:哪里可能错?证据是什么?
- 信息不足就问我,不要瞎编
这段模板的价值是:把模型从“聊天模式”切到“交付模式”。
场景 1:代理式编程(Agentic Coding)——让它写代码别只会“贴片段”
你想要的不是一段代码,你想要的是:
- 能跑
- 有测试
- 能读懂(命名、注释、结构)
- 有回滚/错误处理
实战任务:加一个功能并跑通测试
你可以这样下单:
目标:在现有项目里新增“批量导入 CSV”的功能,并提供单元测试。
约束:
- 不允许引入超过 1 个新依赖
- 兼容 Node 18
- 失败时给出可读错误信息
交付:
- 改动点列表
- 关键代码片段
- 测试用例
- 运行方式(命令行)
自检:
- 覆盖边界:空文件、超大文件、非法字段、重复数据
你要盯住的 3 个关键点
- 让它先扫项目结构:目录树、入口文件、现有测试框架
- 让它先写测试再补实现:能大幅减少“看起来对,跑不起来”
- 让它输出变更清单:你 review 会轻松很多
场景 2:电脑操控(Computer Use)——把“点点点”外包出去 🖥️
最适合外包的工作长这样:
- 页面步骤固定
- 需要重复很多次
- 你不想每天被这些琐事拖到晚下班
实战任务:整理一份竞品价格表
给它一个明确动作序列:
目标:从 5 个竞品官网整理“套餐价格/限制/是否含 API”的对比表。
规则:
- 每个竞品至少引用 1 个官方页面链接
- 遇到地区/币种切换,按“美元/月”统一
- 查不到就标记“未知”,并写明你查过哪里
交付:
- 一张对比表(Markdown 表格)
- 链接清单
- 不确定点列表
小提醒
- 电脑操控最怕“你没说清楚就默认瞎点”。把禁区说清楚:不登录、不授权、不提交表单。
场景 3:知识工作(Knowledge Work)——让它产出能直接发的文档
常见的“伪努力”是:让模型写一篇看似完整、实际空洞的报告。
解决办法:让它按交付结构写,而不是按“文章”写。
实战任务:写一份能开会的周报/项目复盘
直接用这个结构压住它:
- 本周产出(可验证:链接/截图/PR/数据)
- 关键决策(做了什么取舍,为什么)
- 风险与阻塞(需要谁拍板)
- 下周计划(按天拆到任务,标责任人/依赖)
提示词示例:
把我粘贴的工作记录整理成“能直接发到群里”的周报。
硬要求:
- 每条产出后面带证据(链接/数字/文件名)
- 把风险按“影响/概率/应对”写成表
- 任何含糊词(比如“优化了”“提升了”)都要改成具体结果
场景 4:早期科研/调研(Early Scientific Research)——它像个“迭代型研究搭子”
早期研究最折磨人的地方是:线索多、概念乱、方向摇摆。
你需要的是:
- 研究地图(领域→子方向→代表方法)
- 证据链(每个结论对应引用)
- 可复现实验/验证思路(哪怕是小实验)
实战任务:把一个方向快速摸清
示例提示词:
方向:用 LLM 做“长程任务规划”的方法综述(偏工程落地)。
交付:
- 概念地图:关键术语+它们的关系
- 代表路线:每条路线 3 篇代表工作(给链接)
- 工程落地清单:做 demo 需要的组件/数据/评估指标
- 争议点:3 个争议点,每个争议点给两派观点与证据
规则:
- 不要编论文,不确定就标注“待核验”
- 只要 10 篇以内,但要“典型+高质量”
这种任务的爽点在于:你不用一次把问题问完。你可以让它一轮轮迭代,把图越画越清晰。
自我检查(Self-check)怎么写才有效:给它一张“质检单”
很多模型会“自检”,但你不给标准,它就会自嗨。
直接把质检项写死:
- 检查 1:需求对齐(交付物是否齐全?有没有漏项?)
- 检查 2:事实核验(引用是否存在?数据来源在哪里?)
- 检查 3:可执行性(照着做能复现吗?缺哪些前置条件?)
- 检查 4:风险提示(哪里最可能翻车?如何止损?)
你甚至可以加一句狠话:
“如果发现自己在猜,就停下来问我,不要继续写。”
速度不变、token 更省:你能怎么“薅到效率”?
如果模型延迟差不多,真正影响你体验的是两点:
- 同样的任务,输出更短更准(token 更省)
- 返工次数更少(你少催它、少改它)
你可以这样控成本:
- 明确输出长度:比如“对比表不超过 30 行”
- 要求“先给大纲,确认后再展开”
- 要求“引用优先,观点靠后”(减少空话)
避坑清单(真的很常见)
- 只说“做个 XX”,没说交付格式:它就写成一篇散文
- 不给工具权限边界:它就会在你不想的地方乱试
- 没有验收标准:它永远觉得自己写得不错
- 一次塞太多目标:它会平均用力,结果样样不精
- 让它“持续执行”但不给停止条件:能把你带进无尽分支地狱
一套你今天就能用的“Agent 工作流”
把复杂工作跑起来,用这个闭环就够了:
- 目标(可交付)
- 计划(8 条以内)
- 执行(每块出结果)
- 自检(按质检单)
- 追问(缺信息就问)
- 复盘(沉淀模板,下次直接复用)
你会发现:模型的“聪明”没那么玄学,你把工单写清楚,它就能更像人一样干活。
想要我帮你把某个具体任务(写代码/做调研/写方案/做对比表)改成一份可直接投喂的 Agent 工单,把你的目标和素材丢过来就行。