同一条提示词做对比,才叫真的公平
你发一组 A/B 图,评论区就会变成大型“站队现场”。有人说 MJ 稳,有人说 GPT-Image 2 细节更像人画的。
想把对比做得有说服力,关键不在“谁更强”,而在你有没有把变量锁死。
下面咱们用一条很硬核的场景来做:
俯视航拍、国风古代大都市、极繁巨构、3D 建模写实、黑神话气质
这种题材特别适合对比,因为它会逼模型交作业:结构、透视、密度、材质、氛围、叙事感,一个都躲不掉。
为什么大家会觉得“同 prompt 对比”不公平?
同一句话,丢进不同模型,理解方式就是不同。
更现实的问题是:
- 你在 MJ 用了
--stylize 1000,在 GPT-Image 2 没有对应项 - 你在 MJ 用了
--chaos,画面随机性被放大 - 你给 GPT-Image 2 多说了两句“再细一点”,等于开了“二次迭代 buff”
所以别只喊“同 prompt”。
要做的是:同题、同约束、同评判标准。
一套能落地的“盲测对比流程”
1)把 prompt 写成“硬规范”,别写成抒情散文
你要的不是文学,是交付。
建议用这种结构:
- 画幅与镜头:16:9、俯视、航拍
- 主体:古代大都市、巨构建筑群
- 风格:极繁主义、黑神话气质、写实 3D
- 画面质量:细节密度、材质、光照、摄影感
- 约束:不要现代元素、不要科幻玻璃幕墙
2)每家都生成“同数量、同轮次”
你想做盲测,就别让某一方多迭代。
建议:
- 两边都生成 4 张
- 两边都只允许 一次微调(如果你要微调,就两边都微调一次)
3)统一输出口径(不然评论区直接吵翻)
发图时配上这三行,观众会更认真:
- 题材:国风极繁巨构城市航拍
- 约束:16:9、写实 3D、黑神话气质
- 评判点:透视结构、细节密度、材质与光照、整体叙事
你这条原始 prompt,怎么写得更“模型友好”?
你的原始版本是这个(保留核心意思):
16:9, 以极繁主义风格呈现的杰作,从俯视视角展现充满神秘感且细节完美的3D建模国风古代大都市,采用航拍视角,尽显宏大与繁华。巨构建筑群,极其繁复,结构层层叠叠、错落有致,往上看不到顶,往下看不到底,黑神话风格,摄影大师杰作,写实
它的问题不在内容,而在“指令密度太高但不够具体”。
比如:
- “细节完美”属于主观词,模型理解会飘
- “摄影大师杰作”也偏抽象
- “黑神话风格”可以,但建议补几个可执行特征(光影、材质、氛围)
下面给你一个更硬的版本。
可直接复制的对比用 Prompt(通用版)
把它当作母版,你后面只换城市朝代、建筑元素就能一直用。
16:9 wide cinematic frame. Top-down aerial view (drone shot) of an ancient Chinese mega city, ultra-maximalist architecture, gigantic dense building clusters, layered roofs and terraces, endless vertical depth (no visible top, no visible bottom), complex city blocks and alleys, monumental gates, pagodas, palace complexes.
Style: realistic 3D environment, high-detail hard-surface modeling, physically based materials, cinematic volumetric lighting, dramatic mist and atmospheric perspective, dark mythic mood (Black Myth-like tone), sharp focus, high micro-detail, believable scale.
Constraints: no modern buildings, no sci-fi elements, no neon, no cars, no modern text.
想更狠一点,再加一段“材质与光照”的约束:
Materials: aged stone, carved wood, bronze ornaments, glazed tiles with subtle wear and dirt, realistic weathering. Lighting: late afternoon low-angle sun + soft fog, deep shadows, high contrast but natural.
Midjourney 参数怎么配,才不容易“抽象化”
MJ 很容易被“极繁 + 巨构 + 神秘”带跑,变成装饰性大片,结构反而不稳。
建议你用偏稳的组合:
/imagine [上面的 Prompt]
--ar 16:9 --stylize 150 --chaos 5 --quality 1
想要更写实、更像 3D 建模渲染,可以把 stylize 压低:
- 画面太“艺术化”:
--stylize 50 - 细节不够密:把 prompt 里“dense / layered / micro-detail”写得更具体,比盲目拉 stylize 更有效
如果你想做“同 prompt 盲测”,建议不要把 --chaos 拉太高,不然随机性太大,观众会觉得你在“拼运气”。
GPT-Image 2 怎么喂,出片更接近你要的“城市结构感”
GPT-Image 2 的优势经常体现在:
- 画面更“讲理”,结构更像人在搭
- 对“约束句”更听话
你可以用“分段指令”的方式喂它(同一条消息里分段),它更容易抓重点:
你要生成一张 16:9 的写实 3D 场景图。
镜头:俯视航拍(顶视角 drone shot),画面有强烈纵深,上下看不到尽头。
主体:国风古代巨型都市,建筑群极其密集、层层叠叠、错落有致,有宫殿群、城门楼、塔楼、连廊、街巷。
风格与质感:写实 3D 建模渲染,PBR 材质,石材/木材/青铜/琉璃瓦有风化与污渍;体积雾、电影级光照、暗黑神话气质。
限制:不要现代建筑、不要科幻元素、不要霓虹、不要车辆、不要文字。
如果你发现它“宏大感不够”,别只喊“更宏大”。你要补的是尺度参照:
城市尺度要夸张到:单个宫殿屋顶像山体一样大,街巷像裂谷一样深,但整体仍保持古代中国城市的建筑语言。
这句很顶用。因为它给了模型一个可执行的“尺度比喻”。
发对比图时,评论区更爱吵的 4 个点(也是你该盯的评判点)
做盲测别只问“你 pick 谁”。你可以引导大家看这些:
- 透视对不对:航拍俯视最容易崩的是结构透视
- 密度是否真实:极繁不是“堆花纹”,是“功能结构多且合理”
- 材质是否可信:石头像石头、木头像木头,别一锅塑料感
- 氛围是否一致:黑神话气质靠光影和雾,别靠瞎加暗色滤镜
你甚至可以在图下写一句:
“别只看细节花不花,看看城市逻辑像不像能住人的地方。”
观众会更愿意认真看。
避坑清单(踩过的人都懂)
- 把“俯视视角”和“航拍视角”重复写十遍,没用。要补的是高度、镜头、焦段感(如 top-down drone shot / wide cinematic frame)。
- “细节完美、摄影大师、杰作”这类词太虚。你写“PBR、weathering、volumetric lighting、micro-detail”更实。
- 极繁城市很容易变成“贴图噪点”。解决办法:强调 city blocks / alleys / terraces / gates / corridors 这类结构词。
- “黑神话风格”容易让模型直接走向怪物/魔幻。你想要的是“气质”,就把怪物相关词全删掉,只保留光影与氛围描述。
- 不写限制条件,模型就会塞现代桥梁、玻璃楼、科幻灯带。别给它机会。
一句很实用的发图话术(让盲测更公平)
你可以这样发:
“同一条 prompt,A/B 都只生成 4 张,各挑最满意的一张。评判点:结构、透视、材质、氛围。你觉得哪张更像真实 3D 巨构城市?”
这话一出,评论区就不太好“凭印象开喷”,讨论质量会明显提升。😄
给你 3 个可加可不加的“强化模块”
想继续压榨画面,你可以从这三块加料:
模块 A:城市功能性
Add functional realism: visible city planning with districts, main avenues, bridges, courtyards, drainage canals, layered terraces connecting different elevations.
模块 B:朝代风格锚点(避免乱炖)
Architectural language closer to Tang/Song: sweeping eaves, dougong brackets, glazed roof tiles, symmetrical palace axis.
模块 C:更电影的氛围
Cinematic mood: god rays through fog, subtle smoke from rooftops, distant mountain silhouettes, high contrast but natural color grading.
你要是准备继续做系列对比,建议你把“母版 prompt + 3 个强化模块”存成模板。
下次换题材也简单:把“古代大都市”换成“山城要塞”“水上都城”“地下巨城”,一套玩法能连发一周。