GPT Image(image2)+ Seedance 2.0:视频创作的“王炸组合”怎么用
做视频最折磨人的环节是什么?
不是想点子,是“把脑子里的画面变成能剪的素材”。
这套组合的爽点在这:
- GPT Image(image2):用很简单的提示词就能把你的意图画出来,直接出分镜图。
- Seedance 2.0:把分镜图丢进去,生成视频,观感丝滑、稳定。
咱们把它当成一条流水线:脚本 → 分镜图 → 视频 → 字幕/配音。
你会用在什么场景?(很具体)
- 你要做 产品宣传:一天内出 3 条不同卖点的视频。
- 你做 知识科普:用镜头语言把“抽象概念”讲清楚。
- 你做 剧情短片:不用先拍摄,也能先把节奏和镜头跑通。
- 你是 运营/投放:快速做 A/B 测试素材,少加班一小时就很香 😄
核心思路:把“成片难度”拆掉
很多人直接文生视频,然后崩:人物变脸、镜头跳、风格飘。
更稳的做法是:
- 用 GPT 把脚本变成“镜头语言”(每一镜要拍什么,怎么拍)。
- 用 GPT Image 先定格画面(分镜图 = 你的视频蓝图)。
- 用 Seedance 按分镜逐镜生成(每镜 3~5 秒最稳)。
- 剪辑拼起来(再补字幕、音乐、配音)。
你会发现:分镜一旦定了,后面就像照着施工图盖房子。
准备工作:开工前你要定 4 件事
写在纸上都行,别偷懒。
- 主题:这条视频讲什么?
- 受众:给谁看?(新手/职场/宝妈/摄影圈…)
- 风格:写死一个,比如“写实电影感”“日系清新”“赛博朋克”。
- 规格:竖屏 9:16 还是横屏 16:9?时长 15s 还是 60s?
小建议:短视频更推荐 9:16,镜头更紧凑,转化更友好。
Part 1:用 GPT 产出“可执行脚本 + 分镜表”
你要的不是作文,是能直接拿去做分镜的结构化输出。
把下面这段提示词直接复制改改就能用:
✅ 提示词:脚本转分镜表
你是短视频导演兼编剧。
请把我给你的主题,输出为“可执行拍摄分镜”。
要求:
- 时长:30秒
- 画幅:9:16
- 风格:写实电影感,光影柔和
- 节奏:前3秒强钩子,中段信息密度高,结尾有行动引导
- 输出格式为表格,列包含:镜头号、时长、画面内容、景别/机位、镜头运动、屏幕字幕、旁白、音效/音乐建议
- 镜头数控制在 8~10 镜
主题:{把你的主题写在这里}
产品/品牌信息(可选):{写这里}
目标受众:{写这里}
必须强调的卖点:{写这里}
禁用内容:{写这里,比如不要夸张承诺、不要出现竞品}
拿到分镜表后,你会得到一个很爽的东西:每一镜要画什么都明确了。
Part 2:用 GPT Image(image2)把分镜表变成“分镜图”
分镜图的目标不是“美术大作”,是稳定一致。
分镜图要做到的三件事
- 同一主角:发型、衣服、年龄别乱飘。
- 同一风格:色调、质感统一。
- 同一世界观:场景别从办公室跳到沙漠。
✅ 提示词模板:单镜头分镜图
把每个镜头独立生成一张图,按镜头号保存。
生成一张短视频分镜图(storyboard frame)。
画幅:9:16。
风格:写实电影感,柔和自然光,低饱和,轻胶片质感。
主体设定:同一个亚洲年轻女性,短发,白色衬衫+浅蓝牛仔裤,干净利落。
场景设定:现代办公室/城市街头(按镜头需要选择)。
镜头信息:{镜头号},{景别/机位},{镜头运动(如有)}。
画面内容:{把分镜表里“画面内容”粘过来}。
要求:画面简洁,主体明确,避免多人脸堆叠;不要文字水印。
🧩 一致性技巧(很关键)
- 固定“主体设定”段落:衣服、年龄、发型、配饰写死。
- 固定“风格设定”段落:电影感/日系/赛博,别一会儿写实一会儿插画。
- 镜头只改“画面内容”:别每镜都大改设定。
你要的是“同一条片子的不同镜头”,不是“十张好看的海报”。
Part 3:用 Seedance 2.0 把分镜图生成视频
这里的策略很简单:
- 逐镜生成:每张分镜图生成一个短视频片段。
- 每镜 3~5 秒:更稳,细节不容易崩。
- 用轻提示词控制运动:别一上来就“疯狂运镜”。
✅ Seedance 提示词模板:分镜图 → 视频片段
把对应分镜图上传,然后用类似这样的提示词:
参考上传的分镜图生成视频。
保持人物外观一致、服装一致、画面风格一致。
镜头运动:{例如:缓慢推近 / 轻微横移 / 稳定手持但不抖}
动作:{例如:她抬头看向镜头,轻微点头,拿起桌上的手机}
氛围:写实电影感,柔和自然光,低饱和,轻胶片颗粒。
时长:4秒。
画面稳定,不要突然变焦,不要换脸,不要新增人物。
运镜怎么选才不翻车?
- 想高级:缓慢推近、轻微横移。
- 想有纪录片味:稳定手持(但不抖)。
- 不建议:大幅旋转、快速拉远、连续变焦(非常容易崩)。
Part 4:剪辑拼接,让它像“真的一条片”
把每镜生成的片段拉进剪辑软件(剪映/PR/CapCut 都行)。
建议这样做:
- 镜头切点跟字幕走:字幕换行就切镜头,节奏立刻变好。
- 统一调色:哪怕只做一个 LUT/滤镜统一,也会更像一条片。
- 加环境音:键盘声、街道底噪、咖啡机声,真实感暴涨。
配音也别纠结:
- 你真人配音最自然。
- 不想出声就用 TTS,但记得加一点呼吸停顿,不然像播报新闻。
示例:做一条“AI 帮你写周报”的 30 秒短视频
脚本方向(给你一个能抄的结构)
- 钩子:周五 18:30 还在写周报?
- 痛点:改来改去、领导要重点、自己没重点
- 方案:用模板 + GPT 生成结构
- 演示:3 个输入 → 1 份周报
- 引导:评论区发“周报”拿模板
分镜建议(缩略版)
- 镜头1(2s):电脑屏幕,文档空白,手敲键盘很急
- 镜头2(3s):主角抬头崩溃,手机弹出“今晚能发吗?”
- 镜头3(4s):切到手机/电脑输入三条要点
- 镜头4(4s):屏幕出现结构化周报(不拍清文字,拍“结构感”)
- 镜头5(4s):主角松口气,合上电脑起身
- 镜头6(3s):夜景电梯/下班路,轻松
- 镜头7(4s):镜头推近,字幕:评论区发“周报”
按这个逻辑做,你会发现:镜头不需要花里胡哨,信息很稳。
避坑清单(踩一次就想骂人)
- 分镜表写太虚:像“展示产品优势”这种话没法画。改成“镜头里出现什么”。
- 同一个角色每镜都变样:主体设定没写死,或者每次提示词都重写了一遍。
- 一镜拍太久:10 秒以上容易飘,拆成两镜更稳。
- 运镜太猛:旋转、快速拉远、跳跃式变焦,生成模型很容易失控。
- 画面里塞太多字:字越多越容易糊。用字幕解决,画面负责情绪。
- 风格关键词乱加:电影感 + 二次元 + 赛博朋克 + 水彩?别折磨模型,也别折磨观众。
你可以直接照抄的“工作流卡片”
- 用 GPT 产出:30 秒分镜表(8~10 镜)
- 用 GPT Image:每镜 1 张 9:16 分镜图(固定主体/风格)
- 用 Seedance:每镜 3~5 秒视频(轻运镜)
- 剪辑:按字幕切镜头 + 统一调色 + 环境音
做完一条,你就会很上头。 因为这套流程的反馈太快了:想法出来 → 画面出来 → 成片出来。
如果你愿意,把你的主题丢给我,我可以帮你把分镜表模板填满到“可直接生成分镜图”的程度。