同样的词，差距有点大啊！别急，咱们把“差距”测出来

你写了一段提示词。

在 gemini-3-pro-image-preview 上像开挂，细节、构图、氛围都在线。

换到 gpt-image-2，突然变味：人物走形、风格跑偏、细节糊成一团。

这事太常见了。

问题不在“你不会写提示词”，而在于：同一句话，不同模型的理解方式不一样。就像同一句“来点高级感”，有人给你西装，有人给你黑白滤镜。

下面给你一套可执行的对比方法，顺便教你怎么把提示词改到更稳。你做完一轮，就知道差距到底在哪，以及怎么补。

你真正要对比的，不是“谁更强”，而是这 4 件事

别用“感觉”评测，咱们拆成可量化的维度：

遵循度：你写的要点，模型是不是都做到？（发型、服装、场景、镜头、光线）
稳定性：同一提示词跑 4 张，画风会不会乱跳？
细节密度：手、眼睛、纹理、材质有没有“像真的”那种信息量？
审美偏好：模型默认更偏摄影？更偏插画？更偏商业海报？

你要的是“能交付”。不是“偶尔出神图”。

一套标准对比流程（10 分钟就能跑完）

1）把变量锁死：不要给模型找借口

对比时把这些固定：

同一段提示词
同样的输出比例（比如 1:1 或 4:5）
同样的内容类型（都做真人摄影感，或都做插画）
每个模型都生成 4 张（看稳定性）

如果平台能选种子（seed），就更爽了；不能选也没关系，4 张足够看出性格。

2）提示词分成“硬约束”和“软约束”

把提示词写成两段：

硬约束：必须出现的元素
软约束：风格、氛围、镜头语言

你会发现很多模型对“软约束”的理解完全不同，差距通常从这里开始。

3）用表格记结果，别靠记忆力

每张图打分（1~5 分就够）：

要素是否齐
人体是否正常
画面是否干净（无多余物体/文字/水印）
风格是否符合
细节是否扎实

写两句备注：哪里翻车、哪里惊艳。以后你会感谢现在的自己。

给你 3 套“评测提示词模板”，直接复制就能用

下面这几套专门用来测模型差异，覆盖常见需求：人像、产品、海报。

模板 A：真人摄影人像（最容易暴露模型基本功）

一张写实摄影风格的人像照片：一位 28 岁亚洲女性，短发，穿白色衬衫和深色西装外套，坐在咖啡馆靠窗位置。自然光从左侧照进来，背景有轻微虚化。50mm 镜头，浅景深，皮肤质感自然，眼神清晰，画面干净，没有文字，没有水印。

看点：手、眼、皮肤纹理、光影是否自然，背景虚化是否像相机拍出来的。

模板 B：产品电商图（测“可商用交付”能力）

一张极简风产品摄影：一只黑色磨砂质感的保温杯放在浅灰背景上，杯身有细腻的高光边缘。顶光 + 柔光箱效果，阴影柔和。画面干净，居中构图，细节清晰，没有文字，没有 logo，没有水印。

看点：材质、反光、边缘是否干净，有没有奇怪的污点和多余结构。

模板 C：商业海报（测构图和审美“默认值”）

一张未来感科技风海报画面：城市夜景背景，蓝紫色霓虹光，画面中间是一位戴透明面罩的角色半身像。构图居中，光影有层次，细节丰富。不要出现任何文字、数字、水印。

看点：氛围、层次、画面组织能力，是否会偷偷塞字。

为什么“同一句话”会差这么多？你得知道模型的 3 个脾气

1）模型有默认审美，你不写，它就按自己的来

你写“高级感”，它可能默认：

某模型偏“摄影棚商业照”
某模型偏“插画/概念设计”
某模型偏“写实但更柔、更平”

解决方式：把风格写具体。

别写“高级”“质感”。写：

具体镜头：35mm / 50mm / 85mm
具体光：侧逆光、蝴蝶光、柔光箱
具体质感：磨砂、金属拉丝、皮革纹理

2）同样的中文词，不同模型触发的“关键词”不一样

有的模型对“电影感”反应强，有的对“写实摄影”更听话。

你可以把同一个意思写两套：

中文语义版（更自然）
关键词版（更像标签）

比如：

中文语义：自然光从窗边照进来，背景轻微虚化
关键词版：window light, shallow depth of field, bokeh background

很多时候，关键词版会更稳。

3）你没写“不要什么”，模型就会自作主张

最常见的翻车：

自动加字、加水印、加 logo
多长出一只手、多一副眼镜
背景塞满乱七八糟的物体

所以“负面约束”要写清楚：

画面干净，没有文字，没有水印，没有 logo，不要额外的手指，不要畸形肢体

别嫌啰嗦。交付时你会发现这几句能救命。

把提示词改到更稳：一招“分层写法”

你可以按这个结构写，模型更容易听懂：

主体（谁/什么）
场景（在哪）
动作与构图（怎么摆）
光线与镜头（怎么拍）
风格与质感（像什么）
禁止项（不要什么）

示例（人像摄影）：

主体：一位 28 岁亚洲女性，短发
场景：咖啡馆靠窗座位
构图：半身像，居中，视线看向镜头
光线镜头：左侧窗光，50mm，浅景深
风格质感：写实摄影，皮肤纹理自然，细节清晰
禁止项：画面干净，没有文字，没有水印，没有 logo，不要畸形手指

同一句话，拆开写，模型更少脑补。

避坑清单：90% 的“差距”，都栽在这些点上 😅

提示词太短：只写“一个女生，电影感”，模型只能自由发挥，翻车很正常。
描述冲突：又要“极简背景”，又要“细节丰富”，模型会胡来。
风格词太虚：高级感、氛围感、大片感……等于没说。
没写禁止项：文字、水印、logo、额外肢体，分分钟出现。
只跑一张就下结论：模型稳定性差异很大，至少跑 4 张再评价。

你该怎么选：gemini-3-pro-image-preview vs gpt-image-2（实用建议）

你只需要按任务选，不用纠结“谁是王者”。

你要稳定的商业交付：多跑几张，看谁更稳、更少乱加东西。
你要细节和质感：用上面“产品/人像模板”测一轮，细节差距会很明显。
你要快速试风格：谁对风格词更敏感，就用谁做探索；定稿再换更稳的模型。

同一段提示词差距大，不丢人。

丢人的是：明明能用流程把问题定位清楚，却还在那靠情绪争强弱。

一句话收尾

别迷信“同样的词就该同样的图”。

用标准对比流程把差距测出来，再用“分层写法 + 禁止项”把提示词写到位，你的出图会稳得多。

同一段提示词，图片效果差很多？用这套对比法，把 gemini-3-pro-image-preview 和 gpt-image-2 测个明白