GPT-5.5 上线：别只会聊天，把它用成“能跑腿的代理”

GPT-5.5 已经在 ChatGPT 和 Codex 推出，官方口径很直白：这是更强的前沿模型，目标场景是 代理式编程（agentic coding）、电脑操作（computer use）、知识工作、科研研究。API 也在路上。

很多人看到“更聪明”就结束了。可真值钱的地方，是你能把它当成一个会执行任务、会自查、会反复迭代的搭档。下面直接上可抄的做法。

你该用它干什么？给你 4 个高频场景

1）代理式编程：把需求交给它“分解 →写代码→跑测试→修 bug”

你想要的不是一段代码。你想要的是：能跑、可维护、可扩展、还带测试。

适合的任务：

新项目脚手架（目录结构、配置、CI）
加一个功能模块（含接口、数据层、测试）
重构一坨老代码（带迁移计划）
修复线上 bug（从复现到定位到修复到回归）

2）电脑操作：让它按步骤“点哪里、复制啥、检查啥”

你不想盯着一堆网页和表格。你想要一个能把流程讲清楚的“操作员”。

适合的任务：

复盘一个操作流程，变成 SOP
做网页数据的半自动整理（你来执行，它来指挥）
帮你做“检查清单”，降低漏项

3）知识工作：写方案、做对比、整理会议纪要

适合的任务：

写 PRD / 技术方案（带边界、风险、验收标准）
竞品对比（维度设计、评分规则、结论可落地）
会议纪要（行动项、负责人、截止时间）

4）科研研究：快速拉齐背景、列出实验路线

适合的任务：

研究问题拆解（变量、假设、数据需求）
论文阅读计划（优先级、要点提取模板）
实验设计（对照组、指标、统计方法）

在 ChatGPT / Codex 里怎么开搞？一套“代理工作法”

你要做的关键动作只有一个：把输出从“回答”切换成“交付物”。

你给它的输入，建议按这个结构

复制就能用：

你是我的【角色】，要交付【交付物】。
背景：
- ...
目标：
- ...
约束：
- 技术栈/时间/不能做什么/必须兼容什么
验收标准：
- 功能点清单
- 性能/准确率/边界条件
- 测试用例必须覆盖哪些场景
沟通方式：
- 每一轮都输出：计划 → 进度 → 需要我确认的问题 → 下一步
- 不确定就提问，别瞎猜

让它“按回合推进”，别一次把话说完

你希望它像项目搭档，而不是“作文选手”。

可用这个回合提示：

分 4 轮推进：
R1：澄清问题 + 方案草图 + 风险点
R2：给出可执行步骤 + 代码/文档骨架
R3：补齐细节 + 测试/验收清单
R4：自查 + 常见坑 + 回滚方案
每轮结束都问我：是否继续下一轮。

场景 1：代理式编程（在 Codex/ChatGPT 都能用）

✅ 目标：让它像工程师一样干活

你可以这么下单：

你是资深后端工程师。
我要一个“任务管理 API”，技术栈 Node.js + Express + SQLite。
功能：
- 创建/查询/更新/删除任务
- 任务字段：id、title、status(todo/doing/done)、due_date、created_at
约束：
- 需要基础鉴权（简单 token 即可）
- 给出项目结构、可运行命令
验收：
- 提供 Postman 可用的请求示例
- 提供至少 10 个测试用例（含边界条件）
按回合推进，先给 R1。

🧠 你要盯的不是“写得快”，是“有没有自带刹车”

让它自查，直接用：

写完以后做自检：
- 列出你做过的假设
- 列出你没覆盖的边界
- 给出可能的安全风险
- 给出 3 个会失败的例子，并说明如何修

交付物清单（你可以拿这份对它验收）

README：运行方式、环境要求、配置说明
API 文档：路由、参数、返回码、错误码
数据库 schema：迁移方式或初始化脚本
测试：单测/集成测试，至少能跑起来
日志与错误处理：别一出错就 500 + 没信息

场景 2：电脑操作（computer use）——让它带你走流程

你可能会问：它又不是你的鼠标键盘，怎么“用电脑”？思路是：你执行，它当领队。它把步骤拆清楚，你照着点，遇到分叉它告诉你怎么选。

模板：把复杂操作变成“点哪里、填什么、确认什么”

你是我的操作员。
目标：把【某平台】里的【某数据/某设置】整理成表格。
我能做的：我会按你说的在网页里点击/复制/截图。
你要做的：
- 给出逐步操作（每步一句话）
- 每 5 步让我确认一次进度
- 如果页面有多个入口，告诉我怎么判断选哪个
- 关键页面让我截图给你，你再给下一步
先输出操作路线图（不要超过 12 步）。

适合用它做的“日常救命活”

把零散流程写成 SOP（新人照着做不翻车）
做数据整理前的字段规范（列名、类型、缺失值策略）
帮你检查操作遗漏（权限、开关、导出格式）

场景 3：知识工作——写方案别写成“空话文学”

你要的是能落地的方案。最怕的是：字很多，责任不清，验收标准没有。

模板：让它写“可执行方案”

你是我的项目合伙人。
我要一份【主题】方案，输出必须包含：
- 目标（可量化）
- 范围（做什么/不做什么）
- 里程碑（按周列）
- 风险清单（概率/影响/预案）
- 验收标准（能打勾的那种）
背景材料：
- ...
限制条件：
- 人力 2 人、周期 3 周、必须兼容旧系统
写完后请挑 5 条最容易被质疑的点，替我准备回答。

小技巧：强制它给“表格 + 清单”

口水少一半，质量高一截。

你可以补一句：

关键部分用表格呈现；所有结论后面都跟“依据/数据来源/假设”。

场景 4：科研研究——别让它“编论文”，让它“搭实验路线”

科研最有价值的不是“写得像论文”。而是：问题定义清楚、实验路线合理、指标可计算、结论可复现。

模板：研究问题拆解 + 实验设计

你是我的研究助理。
研究问题：【一句话描述】
我已有材料：
- 数据：...
- 方法：...
- 参考方向：...
请输出：
- 关键概念解释（用我能讲给同事听的版本）
- 可检验的假设（至少 3 条）
- 实验设计（对照组、变量、指标、停止条件）
- 可能失败的原因（至少 8 条）
- 结果记录模板（表格）
每一条都写清楚“我需要做什么”。

研究场景的硬规矩（强烈建议贴在提示词里）

不确定的地方标注“不确定”，别硬编
引用与结论分开写
给“可复现步骤”，不要只有结论

避坑清单：GPT-5.5 再强也会踩的雷

需求没边界：你不写“不做什么”，它就会越写越大。
验收标准缺失：没有“能打勾的条目”，就会陷入无限改稿。
把“看起来合理”当成“真的对”：涉及代码、数据、论文，一律加自查、加测试、加复现步骤。
不给上下文：一段截图、一个日志、一个示例输入，胜过 200 字描述。
一次性让它输出全部：长输出更容易漏细节。按回合推进更稳。

API 还没到，你现在能做的准备（省得临时抱佛脚）

API 来了你会做什么？无非是把提示词变成“可调用的工作流”。提前把这些准备好：

✅ 任务模板库：把你常用的提示词整理成 10 条
✅ 评测用例：同一任务准备 5 组输入，方便对比模型效果
✅ 结果格式：统一 JSON / Markdown 表格，后续好进系统
✅ 风险控制：敏感信息脱敏策略、日志留存策略
✅ 成本意识：把任务拆成小调用，别一口气喂大段上下文

你可以直接拿去用的一句话指令（懒人版）

想让它立刻进入“代理模式”，丢这句：

别给我泛泛建议。把任务拆成步骤，给出可交付物，写清验收清单；每轮推进都要自查并问我是否继续。

如果你愿意，把你现在要做的任务（代码/方案/研究/操作流程）贴出来，我可以按上面的结构帮你改成一份“下单就能跑”的提示词。

GPT-5.5 上线：用它做“会跑腿”的编程代理、办公助手、研究搭子（ChatGPT / Codex 实操）

GPT-5.5 上线：别只会聊天，把它用成“能跑腿的代理”

你该用它干什么？给你 4 个高频场景

1）代理式编程：把需求交给它“分解 →写代码→跑测试→修 bug”

2）电脑操作：让它按步骤“点哪里、复制啥、检查啥”

3）知识工作：写方案、做对比、整理会议纪要

4）科研研究：快速拉齐背景、列出实验路线

在 ChatGPT / Codex 里怎么开搞？一套“代理工作法”

你给它的输入，建议按这个结构

让它“按回合推进”，别一次把话说完

场景 1：代理式编程（在 Codex/ChatGPT 都能用）

✅ 目标：让它像工程师一样干活

🧠 你要盯的不是“写得快”，是“有没有自带刹车”

交付物清单（你可以拿这份对它验收）

场景 2：电脑操作（computer use）——让它带你走流程

模板：把复杂操作变成“点哪里、填什么、确认什么”

适合用它做的“日常救命活”

场景 3：知识工作——写方案别写成“空话文学”

模板：让它写“可执行方案”

小技巧：强制它给“表格 + 清单”

场景 4：科研研究——别让它“编论文”，让它“搭实验路线”

模板：研究问题拆解 + 实验设计

研究场景的硬规矩（强烈建议贴在提示词里）

避坑清单：GPT-5.5 再强也会踩的雷

API 还没到，你现在能做的准备（省得临时抱佛脚）

你可以直接拿去用的一句话指令（懒人版）