Codex 大升级实战:Computer Use 做 UI 测试,Artifact 边看边改网页,还能顺手出图
导语:开发最恶心的一环,它来抢活了
做 Web 的人都懂,UI 测试这件事很“脏”。
不是写不出功能,是你永远会遇到这些破事:
- 按钮在某个分辨率挤成一坨
- 弹窗挡住关键 CTA
- 表单校验提示飘到天上
- 流程一长,人测到后面直接摆烂
Codex 这波升级,把一堆原来散落在不同工具里的能力揉到一起了:聊天、写代码、开 Artifact 预览、网页上圈点批注、Computer Use 自动操作页面做 UI 检查,甚至还能生成图片。
你拿它干活,会有种感觉:它不是“帮你写代码”,它在帮你把产品做出来。😄
你能用它干嘛(别讲虚的,直接上场景)
1)Computer Use:让它像真人一样点来点去,做 UI 测试
以前你要么自己手点,要么写一堆 E2E 脚本。
现在你可以直接说:
- “打开这个页面,走一遍注册流程”
- “把所有按钮 hover 一遍,看有没有错位”
- “切换移动端视口,检查布局”
它会操作浏览器,按步骤执行,还会回报异常点。
2)Artifact:代码写完能直接打开看
写个页面不需要来回切本地 server,不需要你先搭一堆脚手架才能预览。
它写的网页能直接跑起来。 你能当场看到:
- 布局是不是你想要的
- 交互是不是顺手
- 文案是不是刺眼
3)网页上直接评论 + 标记:改动需求不用“嘴对嘴”
最烦的是这类沟通:
“那个按钮再往右一点点。”
一点点是多少?你俩能吵半小时。
现在可以在生成的网页上直接圈出来:这里改、那里删、这个换色。 Codex 看着标记改,沟通成本直接砍半。
4)先出图草稿再写代码:页面素材也顺手解决
做产品经常卡在“缺一张图”。
Codex 现在能生成图片:
- 先给你出草稿,确认方向
- 再按页面风格补齐素材
- 图到位了再开始写样式
你会明显感觉到:页面落地速度快了,不再等设计排期干瞪眼。
5)侧边栏还能开文件:PDF、PPT 都能读
这点很实用。
常见场景:
- PM 丢你一份 PRD PDF
- 客户甩你一个提案 PPT
- 你要按里面的规范做页面
以前你要自己翻、自己抠重点。 现在可以直接让 Codex 读文件,提炼成开发任务清单,甚至顺手生成页面结构。
一套能直接照做的工作流(从需求到上线前自测)
下面这套流程,适合你做一个活动页、后台表单页、小型产品原型。
A. 用文件喂需求:让它把“人话”变成可开发清单
目标:把 PDF/PPT 里的描述变成任务列表 + 页面结构。
提示词模板(你直接替换括号内容):
我给你一份(PRD.pdf/需求PPT)。 帮我输出:
- 这个页面的功能清单(按用户操作路径写)
- 页面结构草图描述(Header/表单区/列表区/弹窗)
- 必要的校验规则(必填、格式、错误提示文案)
- 你觉得最容易踩坑的 10 个点
你会得到一个很“工程化”的结果,后面每一步都好推进。
B. 先让它出页面原型(Artifact 直接能开)
目标:不用纠结技术选型,先把页面跑起来。
提示词模板:
按刚才的功能清单,生成一个可运行的单页 Demo。 要求:
- 使用简单的 HTML/CSS/JS(不要引入复杂框架)
- 样式干净,留出后续换主题的空间
- 每个交互都要有可见反馈(loading、错误提示、成功提示) 生成后放到 Artifact,直接可打开。
这一步你就能看到“像不像”。像了再深化,不像就立刻改方向。
C. 在网页上圈改动:把“感觉”变成“指令”
目标:用标记代替口头描述。
你在页面上圈:
- 按钮改成主色
- 表格列宽调整
- 文案替换
- 错误提示位置上移
然后丢给 Codex:
我在页面上做了标注。 按标注逐条修改,别改动未标注区域。 改完后在回复里列一个变更列表,方便我复查。
这个方式特别适合你和同事对齐,也适合你自己“边看边改”。
D. 开 Computer Use 做 UI 走查:让它当你的“人肉测试员”
目标:把最耗时间的点按流程扫一遍。
你可以这样发指令(更像测试用例):
用 Computer Use 打开 Artifact 页面。 按以下步骤操作并记录异常: 1)切到 390x844(手机)检查是否横向滚动 2)点击所有按钮,确认都有反馈 3)表单空提交,检查错误提示是否清晰 4)输入非法邮箱、超长姓名、特殊字符,观察是否崩 5)打开弹窗后按 Esc、点遮罩、点右上角关闭,行为要一致 输出:异常列表 + 复现步骤 + 你建议的修复方式
它跑完你会得到一份“能直接提 Bug 的报告”。
E. 缺素材?让它先出图草稿,再统一风格
目标:别为了等一张图把节奏卡死。
提示词模板:
我需要一张用于网页 Hero 区的插图草稿。 风格:简洁、偏 SaaS、低饱和。 画面元素:一个仪表盘、几个卡片、轻微 3D 感。 给我 3 个方向的草稿,我选一个再精修。
你选定方向后再追一条:
就用第 2 张的构图。 颜色跟页面主色(#xxxxxx)匹配。 输出适合网页的尺寸(例如 1600x900)和透明背景版本。
实战示例:用它把“注册登录页”从 0 做到可测试
你可以拿这个示例当模板,改一改就能用在自己的项目。
1)让它生成页面(Artifact 可运行)
要求你盯住三件事:
- 交互:输入/校验/提交状态齐全
- 视觉:对齐、间距、层级
- 可测:每一步都有明确反馈
示例提示词:
做一个注册/登录切换页:
- tab 切换「登录」「注册」
- 登录:邮箱 + 密码
- 注册:邮箱 + 密码 + 确认密码 + 勾选协议
- 校验:邮箱格式、密码长度、两次密码一致
- 提交后模拟 1.2s 请求,成功提示并清空表单 放到 Artifact,直接打开。
2)让 Computer Use 跑一遍“坏人测试”
你想象用户是来搞破坏的:
- 什么都不填就点提交
- 邮箱乱写
- 密码只输 1 位
- 疯狂连点按钮
示例提示词:
用 Computer Use 对注册流程做压力式走查:
- 连点提交 10 次
- 输入超长字符串(500 字符)
- 快速切换 tab 20 次 记录:页面是否卡顿、是否出现错位、是否有报错信息露出来。
你会很快抓到那些“本来上线后才会爆”的小问题。
避坑清单(都是血压飙升的那种)
- 别一上来就让它上复杂框架:你要的是快速可运行原型,不是开局就把自己扔进工程化泥潭。
- 标注改动时要“限定范围”:不然它容易顺手优化你没让它动的地方,越改越偏。
- UI 测试指令别写成散文:按步骤列,带明确的视口尺寸、操作路径、预期结果。
- 让它输出复现步骤:没有复现步骤的 Bug 报告,等于没报。
- 图片别直接追求最终稿:草稿先定方向,省下的时间够你多迭代两版页面。
我怎么评价这次升级(带点个人情绪)
Codex 现在的感觉更像“产品工作台”。
写代码的人要的从来不只是补全几行函数。 你真正痛的是:需求散、沟通慢、预览麻烦、测试折磨人。
这次把 Computer Use、Artifact、文件阅读、出图都塞进来,确实很懂开发的日常。
顺便吐槽一句:有些桌面端工具,稳定性像抽盲盒,一天能给你整出一堆问题;你想专心做产品,它偏要拉你去修它自己。对比下来,OpenAI 在“把东西做成可用的产品”这件事上,确实老练。😄
你可以直接抄的提示词合集
把下面三条收藏起来,日常用得很频繁。
1)需求转任务清单
读我上传的文件,输出功能清单(按用户路径)、页面结构、校验规则、10 个高风险点。
2)生成可运行 Artifact 页面
生成单页 Demo:HTML/CSS/JS,交互反馈齐全,放到 Artifact 直接可打开。
3)Computer Use UI 走查
用 Computer Use 打开页面,按步骤操作(含视口尺寸/异常记录/复现步骤/修复建议),输出 Bug 列表。