首页 / 正文

GPT-5.5 上线:用它做“会跑腿”的编程代理、办公助手、研究搭子(ChatGPT / Codex 实操)

Mooko
发布于 2026-04-24 · 5分钟阅读
458 浏览
0 点赞 暴击点赞!

GPT-5.5 上线:别只会聊天,把它用成“能跑腿的代理”

GPT-5.5 已经在 ChatGPTCodex 推出,官方口径很直白:这是更强的前沿模型,目标场景是 代理式编程(agentic coding)电脑操作(computer use)知识工作科研研究。API 也在路上。

很多人看到“更聪明”就结束了。可真值钱的地方,是你能把它当成一个会执行任务、会自查、会反复迭代的搭档。下面直接上可抄的做法。


你该用它干什么?给你 4 个高频场景

1)代理式编程:把需求交给它“分解 →写代码→跑测试→修 bug”

你想要的不是一段代码。 你想要的是:能跑、可维护、可扩展、还带测试

适合的任务:

  • 新项目脚手架(目录结构、配置、CI)
  • 加一个功能模块(含接口、数据层、测试)
  • 重构一坨老代码(带迁移计划)
  • 修复线上 bug(从复现到定位到修复到回归)

2)电脑操作:让它按步骤“点哪里、复制啥、检查啥”

你不想盯着一堆网页和表格。 你想要一个能把流程讲清楚的“操作员”。

适合的任务:

  • 复盘一个操作流程,变成 SOP
  • 做网页数据的半自动整理(你来执行,它来指挥)
  • 帮你做“检查清单”,降低漏项

3)知识工作:写方案、做对比、整理会议纪要

适合的任务:

  • 写 PRD / 技术方案(带边界、风险、验收标准)
  • 竞品对比(维度设计、评分规则、结论可落地)
  • 会议纪要(行动项、负责人、截止时间)

4)科研研究:快速拉齐背景、列出实验路线

适合的任务:

  • 研究问题拆解(变量、假设、数据需求)
  • 论文阅读计划(优先级、要点提取模板)
  • 实验设计(对照组、指标、统计方法)

在 ChatGPT / Codex 里怎么开搞?一套“代理工作法”

你要做的关键动作只有一个:把输出从“回答”切换成“交付物”

你给它的输入,建议按这个结构

复制就能用:

你是我的【角色】,要交付【交付物】。
背景:
- ...
目标:
- ...
约束:
- 技术栈/时间/不能做什么/必须兼容什么
验收标准:
- 功能点清单
- 性能/准确率/边界条件
- 测试用例必须覆盖哪些场景
沟通方式:
- 每一轮都输出:计划 → 进度 → 需要我确认的问题 → 下一步
- 不确定就提问,别瞎猜

让它“按回合推进”,别一次把话说完

你希望它像项目搭档,而不是“作文选手”。

可用这个回合提示:

分 4 轮推进:
R1:澄清问题 + 方案草图 + 风险点
R2:给出可执行步骤 + 代码/文档骨架
R3:补齐细节 + 测试/验收清单
R4:自查 + 常见坑 + 回滚方案
每轮结束都问我:是否继续下一轮。

场景 1:代理式编程(在 Codex/ChatGPT 都能用)

✅ 目标:让它像工程师一样干活

你可以这么下单:

你是资深后端工程师。
我要一个“任务管理 API”,技术栈 Node.js + Express + SQLite。
功能:
- 创建/查询/更新/删除任务
- 任务字段:id、title、status(todo/doing/done)、due_date、created_at
约束:
- 需要基础鉴权(简单 token 即可)
- 给出项目结构、可运行命令
验收:
- 提供 Postman 可用的请求示例
- 提供至少 10 个测试用例(含边界条件)
按回合推进,先给 R1。

🧠 你要盯的不是“写得快”,是“有没有自带刹车”

让它自查,直接用:

写完以后做自检:
- 列出你做过的假设
- 列出你没覆盖的边界
- 给出可能的安全风险
- 给出 3 个会失败的例子,并说明如何修

交付物清单(你可以拿这份对它验收)

  • README:运行方式、环境要求、配置说明
  • API 文档:路由、参数、返回码、错误码
  • 数据库 schema:迁移方式或初始化脚本
  • 测试:单测/集成测试,至少能跑起来
  • 日志与错误处理:别一出错就 500 + 没信息

场景 2:电脑操作(computer use)——让它带你走流程

你可能会问:它又不是你的鼠标键盘,怎么“用电脑”? 思路是:你执行,它当领队。它把步骤拆清楚,你照着点,遇到分叉它告诉你怎么选。

模板:把复杂操作变成“点哪里、填什么、确认什么”

你是我的操作员。
目标:把【某平台】里的【某数据/某设置】整理成表格。
我能做的:我会按你说的在网页里点击/复制/截图。
你要做的:
- 给出逐步操作(每步一句话)
- 每 5 步让我确认一次进度
- 如果页面有多个入口,告诉我怎么判断选哪个
- 关键页面让我截图给你,你再给下一步
先输出操作路线图(不要超过 12 步)。

适合用它做的“日常救命活”

  • 把零散流程写成 SOP(新人照着做不翻车)
  • 做数据整理前的字段规范(列名、类型、缺失值策略)
  • 帮你检查操作遗漏(权限、开关、导出格式)

场景 3:知识工作——写方案别写成“空话文学”

你要的是能落地的方案。 最怕的是:字很多,责任不清,验收标准没有。

模板:让它写“可执行方案”

你是我的项目合伙人。
我要一份【主题】方案,输出必须包含:
- 目标(可量化)
- 范围(做什么/不做什么)
- 里程碑(按周列)
- 风险清单(概率/影响/预案)
- 验收标准(能打勾的那种)
背景材料:
- ...
限制条件:
- 人力 2 人、周期 3 周、必须兼容旧系统
写完后请挑 5 条最容易被质疑的点,替我准备回答。

小技巧:强制它给“表格 + 清单”

口水少一半,质量高一截。

你可以补一句:

关键部分用表格呈现;所有结论后面都跟“依据/数据来源/假设”。

场景 4:科研研究——别让它“编论文”,让它“搭实验路线”

科研最有价值的不是“写得像论文”。 而是:问题定义清楚、实验路线合理、指标可计算、结论可复现。

模板:研究问题拆解 + 实验设计

你是我的研究助理。
研究问题:【一句话描述】
我已有材料:
- 数据:...
- 方法:...
- 参考方向:...
请输出:
- 关键概念解释(用我能讲给同事听的版本)
- 可检验的假设(至少 3 条)
- 实验设计(对照组、变量、指标、停止条件)
- 可能失败的原因(至少 8 条)
- 结果记录模板(表格)
每一条都写清楚“我需要做什么”。

研究场景的硬规矩(强烈建议贴在提示词里)

  • 不确定的地方标注“不确定”,别硬编
  • 引用与结论分开写
  • 给“可复现步骤”,不要只有结论

避坑清单:GPT-5.5 再强也会踩的雷

  • 需求没边界:你不写“不做什么”,它就会越写越大。
  • 验收标准缺失:没有“能打勾的条目”,就会陷入无限改稿。
  • 把“看起来合理”当成“真的对”:涉及代码、数据、论文,一律加自查、加测试、加复现步骤。
  • 不给上下文:一段截图、一个日志、一个示例输入,胜过 200 字描述。
  • 一次性让它输出全部:长输出更容易漏细节。按回合推进更稳。

API 还没到,你现在能做的准备(省得临时抱佛脚)

API 来了你会做什么?无非是把提示词变成“可调用的工作流”。 提前把这些准备好:

  • ✅ 任务模板库:把你常用的提示词整理成 10 条
  • ✅ 评测用例:同一任务准备 5 组输入,方便对比模型效果
  • ✅ 结果格式:统一 JSON / Markdown 表格,后续好进系统
  • ✅ 风险控制:敏感信息脱敏策略、日志留存策略
  • ✅ 成本意识:把任务拆成小调用,别一口气喂大段上下文

你可以直接拿去用的一句话指令(懒人版)

想让它立刻进入“代理模式”,丢这句:

别给我泛泛建议。把任务拆成步骤,给出可交付物,写清验收清单;每轮推进都要自查并问我是否继续。

如果你愿意,把你现在要做的任务(代码/方案/研究/操作流程)贴出来,我可以按上面的结构帮你改成一份“下单就能跑”的提示词。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取