把模型当同事用：GPT-5.5 式 Agent 工作流实战（ChatGPT / Codex）

很多人看到“新模型发布”就只问一个问题：更聪明了吗？

更该问的是：能不能把一件复杂工作从头做到尾？

面向真实工作场景的模型，关键能力通常集中在三件事：

能理解“复杂目标”（不是一句话需求那种）
会主动用工具（文件、浏览器、代码环境、插件、系统操作）
会自我检查（知道哪里可能错，能返工到可交付）

这套东西，我习惯叫它：把模型当“能干活的同事”来用。下面直接上可执行的打法。

备注：我没法替你验证某条截图/标题是不是官方发布。判断标准很简单：以你自己 ChatGPT/Codex 里能否选到对应模型、官方文档/控制台是否出现为准。

你真正需要的，不是“更强”，是“更能跑完流程”

所谓 Agent 体验，说白了就是：

给它一个目标，它能把任务拆成一串动作
中途遇到缺信息，会问你要、会自己去找（在你允许的工具范围内）
做完会对照验收标准检查，不合格会继续改

你最直观的感受会是：

以前你要盯着它一步步走，现在它能自己推进一段时间
以前输出像“作文”，现在更像“交付件”（代码、表格、清单、报告、可运行脚本）

开工前 2 分钟：把“可控性”设好，不然后面一定翻车

1）确认你要它交付什么

别说“帮我做个方案”。改成这种：

交付物：README + 里程碑计划 + 风险清单 + 可复制的执行步骤
格式：Markdown 或 表格
时间范围：按 1 周能落地的版本

2）把工具权限讲清楚

你允许它用什么？不允许什么？

✅ 允许：读取我上传的文件、使用代码执行器、访问指定网站
❌ 不允许：登录账号、下单购买、执行不可逆操作

3）设“停止条件”，防止它无休止扩展

例子：

“最多给 2 套备选方案，选不出来就问我”
“查资料最多 15 分钟，超时给当前最可靠结论+不确定点”

通用 Agent 提示词模板（直接复制就能用）

把下面这段当你的“标准工单”。你每次只改【目标】和【约束】就行。

你现在扮演我的执行型 Agent。

【目标】
把 XXX 做到可交付：……（一句话说清终点）

【背景资料】
- 我会提供文件/链接：……
- 已知限制：……

【可用工具】
- 你可以使用：文件阅读、代码执行、浏览器搜索、插件（如有）
- 你不可以：登录我的账号、进行支付、删除不可恢复数据

【交付物】
- 必须输出：A、B、C
- 输出格式：Markdown，包含清单/表格

【验收标准】
- 满足：……（可检查、可量化）
- 必须列出：关键假设 + 风险 + 下一步

【工作方式】
- 先给“行动计划”（不超过 8 条），再执行
- 每完成一块就自检：哪里可能错？证据是什么？
- 信息不足就问我，不要瞎编

这段模板的价值是：把模型从“聊天模式”切到“交付模式”。

场景 1：代理式编程（Agentic Coding）——让它写代码别只会“贴片段”

你想要的不是一段代码，你想要的是：

能跑
有测试
能读懂（命名、注释、结构）
有回滚/错误处理

实战任务：加一个功能并跑通测试

你可以这样下单：

目标：在现有项目里新增“批量导入 CSV”的功能，并提供单元测试。

约束：
- 不允许引入超过 1 个新依赖
- 兼容 Node 18
- 失败时给出可读错误信息

交付：
- 改动点列表
- 关键代码片段
- 测试用例
- 运行方式（命令行）

自检：
- 覆盖边界：空文件、超大文件、非法字段、重复数据

你要盯住的 3 个关键点

让它先扫项目结构：目录树、入口文件、现有测试框架
让它先写测试再补实现：能大幅减少“看起来对，跑不起来”
让它输出变更清单：你 review 会轻松很多

场景 2：电脑操控（Computer Use）——把“点点点”外包出去 🖥️

最适合外包的工作长这样：

页面步骤固定
需要重复很多次
你不想每天被这些琐事拖到晚下班

实战任务：整理一份竞品价格表

给它一个明确动作序列：

目标：从 5 个竞品官网整理“套餐价格/限制/是否含 API”的对比表。

规则：
- 每个竞品至少引用 1 个官方页面链接
- 遇到地区/币种切换，按“美元/月”统一
- 查不到就标记“未知”，并写明你查过哪里

交付：
- 一张对比表（Markdown 表格）
- 链接清单
- 不确定点列表

小提醒

电脑操控最怕“你没说清楚就默认瞎点”。把禁区说清楚：不登录、不授权、不提交表单。

场景 3：知识工作（Knowledge Work）——让它产出能直接发的文档

常见的“伪努力”是：让模型写一篇看似完整、实际空洞的报告。

解决办法：让它按交付结构写，而不是按“文章”写。

实战任务：写一份能开会的周报/项目复盘

直接用这个结构压住它：

本周产出（可验证：链接/截图/PR/数据）
关键决策（做了什么取舍，为什么）
风险与阻塞（需要谁拍板）
下周计划（按天拆到任务，标责任人/依赖）

提示词示例：

把我粘贴的工作记录整理成“能直接发到群里”的周报。

硬要求：
- 每条产出后面带证据（链接/数字/文件名）
- 把风险按“影响/概率/应对”写成表
- 任何含糊词（比如“优化了”“提升了”）都要改成具体结果

场景 4：早期科研/调研（Early Scientific Research）——它像个“迭代型研究搭子”

早期研究最折磨人的地方是：线索多、概念乱、方向摇摆。

你需要的是：

研究地图（领域→子方向→代表方法）
证据链（每个结论对应引用）
可复现实验/验证思路（哪怕是小实验）

实战任务：把一个方向快速摸清

示例提示词：

方向：用 LLM 做“长程任务规划”的方法综述（偏工程落地）。

交付：
- 概念地图：关键术语+它们的关系
- 代表路线：每条路线 3 篇代表工作（给链接）
- 工程落地清单：做 demo 需要的组件/数据/评估指标
- 争议点：3 个争议点，每个争议点给两派观点与证据

规则：
- 不要编论文，不确定就标注“待核验”
- 只要 10 篇以内，但要“典型+高质量”

这种任务的爽点在于：你不用一次把问题问完。你可以让它一轮轮迭代，把图越画越清晰。

自我检查（Self-check）怎么写才有效：给它一张“质检单”

很多模型会“自检”，但你不给标准，它就会自嗨。

直接把质检项写死：

检查 1：需求对齐（交付物是否齐全？有没有漏项？）
检查 2：事实核验（引用是否存在？数据来源在哪里？）
检查 3：可执行性（照着做能复现吗？缺哪些前置条件？）
检查 4：风险提示（哪里最可能翻车？如何止损？）

你甚至可以加一句狠话：

“如果发现自己在猜，就停下来问我，不要继续写。”

速度不变、token 更省：你能怎么“薅到效率”？

如果模型延迟差不多，真正影响你体验的是两点：

同样的任务，输出更短更准（token 更省）
返工次数更少（你少催它、少改它）

你可以这样控成本：

明确输出长度：比如“对比表不超过 30 行”
要求“先给大纲，确认后再展开”
要求“引用优先，观点靠后”（减少空话）

避坑清单（真的很常见）

只说“做个 XX”，没说交付格式：它就写成一篇散文
不给工具权限边界：它就会在你不想的地方乱试
没有验收标准：它永远觉得自己写得不错
一次塞太多目标：它会平均用力，结果样样不精
让它“持续执行”但不给停止条件：能把你带进无尽分支地狱

一套你今天就能用的“Agent 工作流”

把复杂工作跑起来，用这个闭环就够了：

目标（可交付）
计划（8 条以内）
执行（每块出结果）
自检（按质检单）
追问（缺信息就问）
复盘（沉淀模板，下次直接复用）

你会发现：模型的“聪明”没那么玄学，你把工单写清楚，它就能更像人一样干活。

想要我帮你把某个具体任务（写代码/做调研/写方案/做对比表）改成一份可直接投喂的 Agent 工单，把你的目标和素材丢过来就行。