Codex 进 ChatGPT 手机 App：手机不写代码，也能盯住 AI 程序员干活

OpenAI 把 Codex 搬进了 ChatGPT 手机 App。

iOS 和安卓今天同步开启 preview。

重点来了：所有 ChatGPT 用户都能用，包括免费版，也包括最低价的 Go 套餐。

听起来像是“终于能在手机上写代码了”？

别急，真不是这么回事。

它更像是给 Codex 配了一个手机遥控器。你不用在小屏幕上痛苦敲括号，也不用拿手机改一堆缩进。真正跑代码、改文件、执行测试的，还是你的电脑、Mac mini、devbox 或远程开发环境。

手机负责一件事：让你随时能看一眼，顺手拍个板。📱

这次更新到底是什么？

简单说：Codex 可以在 ChatGPT 手机 App 里远程查看和管理了。

你可以在手机上做这些事：

查看 Codex 当前跑到哪一步
看它改了哪些文件
审一眼 diff
查看测试结果
批准下一步操作
中途调整任务方向
在外面临时介入正在跑的开发任务

你不能指望它变成一个完整手机 IDE。

这不是 VS Code 手机版，也不是让你在地铁里用拇指写 React 组件。

更准确的定位是：Codex 任务控制台。

手机端的正确打开方式

想象几个场景，你会马上懂它的价值。

场景 1：你让 Codex 重构一个老模块

早上你在电脑前丢给 Codex 一个任务：

把订单模块里的支付状态判断重构一下，顺便补测试。

这个任务可能要跑二三十分钟。

以前你有两个选择：

坐在电脑前盯着它慢慢跑
走开，然后回来发现它卡在一个权限确认上

现在你可以直接出门买咖啡。

手机上打开 ChatGPT，看 Codex 的进度。

它改完文件，你扫一眼 diff。

测试过了，你点一下批准。

不用坐牢式陪跑。

场景 2：通勤路上审 AI 写的代码

地铁上没法写代码。

但你可以看代码。

Codex 改了 5 个文件，你打开手机扫一下：

业务逻辑有没有跑偏
有没有乱动无关文件
测试有没有真的跑
有没有引入奇怪依赖
有没有把配置文件也顺手改了

发现不对，直接发一句：

不要改数据库 schema，只改 service 层逻辑。

这就很实用。

手机不适合生产代码，但很适合做判断。

场景 3：晚上电脑关屏，人不想回工位

Codex 跑一个长任务。

你人已经躺沙发上了。

它突然需要你确认：

是否继续执行测试？

以前你可能要爬起来开电脑。

现在手机点一下。

懒人福音，打工人刚需。😄

它不是把你的代码上传到手机

很多人看到“手机控制 Codex”，第一反应是：

我的代码是不是要同步到手机？凭证会不会也跑过去？

OpenAI 的设计思路不是这样。

真正干活的 Codex 还在原来的机器上：

你的笔记本
Mac mini
devbox
企业远程开发环境
通过 remote SSH 接入的开发环境

文件、凭证、权限，也都留在那台机器上。

手机只是一个远程窗口。

你看到的是任务状态、修改摘要、diff、测试结果这些信息。底层通过 secure relay 中继，让运行 Codex 的机器跨设备保持可达，同时不需要直接暴露在公网。

这点很关键。

很多团队最怕的不是 AI 写错代码，而是开发环境、密钥、内网权限被搞得乱七八糟。

Codex 手机端这套逻辑，至少方向是对的：手机负责控制，开发环境负责执行。

怎么用：一套更稳的工作流

如果你准备尝鲜，建议别一上来就让它改核心支付链路。

咱们按更安全的方式来。

1. 先选低风险任务

适合手机远程盯的任务：

补单元测试
修复明显 bug
调整文案或配置
重构小模块
更新 README
修 lint 问题
生成类型定义
梳理重复代码

不建议直接交给它的任务：

数据库迁移
支付、风控、权限系统
大规模架构改造
生产环境脚本
涉及密钥和敏感配置的操作

别把 Codex 当神仙。

它很能干，但它也会自信地犯错。

2. 任务描述要写得像工单

不要只说：

帮我优化一下这个项目。

这句话太虚了。

你可以这样写：

请检查 src/orders 目录下的订单状态流转逻辑。
目标：
- 找出重复的状态判断
- 提取成一个独立 helper
- 不修改数据库 schema
- 不改接口返回结构
- 补充对应单元测试
- 修改完成后运行相关测试，并汇总变更点

这样 Codex 更不容易跑偏。

你在手机上审查的时候，也知道该看什么。

3. 给它明确边界

边界写清楚，比事后骂它靠谱。

可以直接加这些限制：

限制：
- 不要新增第三方依赖
- 不要修改 package-lock.json，除非必须
- 不要改动 public API
- 不要触碰 .env 和部署脚本
- 每次大改前先说明计划，等我确认

这类话非常有用。

Codex 是 agent，不是普通补全工具。它会自己规划步骤，会跑命令，会改多个文件。

你不写边界，它就可能热心过头。

热心的 AI 程序员，有时候比沉默的 bug 还吓人。

4. 手机端只做三件事

别在手机上硬卷。

手机端最适合做这三件事：

看进度
审关键 diff
批准或打断任务

你不要试图在手机上逐行改代码。

小屏幕看大文件，本身就反人类。

正确姿势是：手机发现问题，然后让 Codex 继续改。

比如你看到它动了不该动的文件，可以直接说：

撤回对 config/payment.ts 的修改，这个文件不在本次任务范围内。只保留 order-service.ts 和相关测试文件的改动。

比你在手机上手动修舒服多了。

当前限制：暂时只支持 macOS 上的 Codex

这里要泼一点冷水。

手机端目前只能连接 macOS 上运行的 Codex。

Windows 支持官方说会很快来。

如果你现在是 Windows 主力开发机，暂时不用太急。

可以关注后续更新，也可以先在 Mac、Mac mini、devbox 或远程环境里试。

对企业团队来说，remote SSH 和 devbox 支持会更有吸引力。

因为很多公司的开发环境本来就不在本地电脑上。

为什么 OpenAI 要把 Codex 塞进 ChatGPT，而不是单独做 App？

这个选择很有意思。

OpenAI 没给 Codex 单独做一个手机 App。

它直接进了 ChatGPT 主 App。

这说明 OpenAI 想把 ChatGPT 做成统一入口。

聊天、写作、查资料、编程 agent、浏览器协作，未来很可能都从一个入口进去。

桌面端可以有独立 Codex App。

手机端则更像“随身控制中心”。

你不需要记住一堆 App。

打开 ChatGPT，看任务，点批准，继续走人。

这条路线很现实。

手机上大家不想装十几个 AI 工具。谁能占住主入口，谁就更容易形成习惯。

和 Claude Code 的关系：Codex 这次是在追进度

Anthropic 这边走得也很快。

Claude Code 从去年秋天开始，就支持手机远程查看和介入正在跑的任务。

后来的 Cowork 配套移动端，也偏向类似的 dispatch 思路：

你把任务派出去，AI 在远端跑，人随时介入。

Codex 这次的动作，可以理解为追上这个方向，同时把覆盖面拉大。

特别是 devbox、企业远程环境、remote SSH 这些场景，对专业开发者更重要。

个人用户可能觉得“手机看看进度”就够了。

团队用户看的是另一件事：

AI agent 能不能安全接进现有工程体系？

能不能用在公司的远程开发环境里？

能不能不把内网和凭证暴露出去？

这些才是硬问题。

适合谁用？

很适合这些人

经常让 Codex 跑长任务的开发者
用 Mac 做主力开发机的人
有 devbox 或远程开发环境的团队
通勤、开会、出门时也要盯任务的人
喜欢把 AI 当“初级程序员”派活的人

暂时不太适合这些人

只想在手机上写完整项目的人
主力机器是 Windows，且不想折腾远程环境的人
对代码审查完全没耐心的人
期待 AI 一次性改完所有东西的人

Codex 手机端解决的是“看住任务”，不是“替你负责”。

责任还在你这边。

一份可直接照抄的 Codex 任务模板

你可以把下面这段存起来。

以后在电脑上发任务，手机上远程盯进度。

任务：修复 / 重构 / 补测试 [具体模块]

目标：
- [目标 1]
- [目标 2]
- [目标 3]

范围：
- 只允许修改：[目录或文件]
- 不要修改：[目录或文件]

限制：
- 不新增第三方依赖
- 不修改数据库 schema
- 不改 public API
- 不触碰 .env、密钥、部署脚本
- 大改前先说明计划，等我确认

完成标准：
- 给出修改文件列表
- 说明核心改动
- 运行相关测试
- 如果测试失败，说明失败原因和下一步建议

举个更具体的版本：

请修复订单取消后库存没有回滚的问题。

范围：
- 只检查 src/orders 和 src/inventory
- 可以修改相关单元测试
- 不要修改数据库 schema
- 不要改接口返回字段

完成标准：
- 找出库存未回滚的原因
- 修复逻辑
- 补充至少 2 个测试：正常取消、重复取消
- 跑相关测试并汇总结果
- 给出最终 diff 摘要

这类任务交给 Codex，比一句“帮我修 bug”靠谱太多。

避坑清单：别让手机远程控制变成远程翻车

别跳过 diff

AI 改完代码，不看 diff 就批准，等于闭眼合并。

至少看这几项：

有没有改错文件
有没有删掉关键逻辑
有没有新增奇怪依赖
有没有硬编码配置
有没有改动测试来“配合通过”

最后一条尤其要小心。

有些 AI 会为了让测试通过，顺手把测试改得没意义。

这操作很熟练，也很欠揍。

别让它碰敏感文件

这些文件尽量提前禁止：

.env
.env.local
secrets.*
deploy/*
infra/*
terraform/*
production.yaml

尤其是生产环境相关脚本。

别让一个还没睡醒的 agent 帮你“顺手优化部署流程”。

别一次派超大任务

不要这样说：

重构整个用户系统。

拆小一点：

只重构用户登录后的 session 校验逻辑，不改注册、不改权限、不改数据库。

AI agent 越能干，越要给它小任务。

小任务可控，大任务容易玄学。

别把手机当主战场

手机适合确认，不适合深度审查。

如果 diff 很大，别硬看。

直接让 Codex 先总结：

请按文件列出本次改动，每个文件用 3 条以内说明，不要继续修改代码。

看完摘要，再决定要不要回电脑细审。

这次更新真正有价值的点

Codex 进 ChatGPT 手机 App，表面看是一个移动端功能。

核心变化其实是开发工作流。

以前 AI 编程更像“坐在电脑前聊天”。

现在越来越像“派一个 agent 去跑任务”。

你不需要一直盯着它。

你只需要在关键节点出现：

它要改方向时
它需要权限时
它完成阶段任务时
它的 diff 需要你判断时

这就是手机端的意义。

不是让你随时随地写代码。

是让你随时随地管理正在写代码的 AI。

开发者的日常可能会变成这样：

早上在电脑上派活。

路上用手机看进度。

午饭前批准测试。

下午回到工位审最终 diff。

晚上合并前再跑一遍 CI。

听起来不像科幻。

更像明天就能开始试的工作流。