Wan2.7‑Video 上手指南:把“能动”变成“能用”
你一定见过这种尴尬:
- 单个镜头挺惊艳,镜头一换人就变了。
- 前一秒在街头,后一秒突然穿越到海边。
- 画面风格飘来飘去,像拼贴。
Wan2.7‑Video 的定位很明确:面向创作者和行业的“综合型”视频生成模型。它把 文本、图片、视频、音频都纳进来,重点补两刀:叙事连贯 + 多镜头一致性。
下面咱们不聊发布会口号,直接按“你要出片”的流程讲怎么用。🧩
你能用它做什么?(按真实场景来)
1)短视频分镜:同一个主角跑完整条片
适合:口播 B-roll、剧情短片、广告小片。
你给一段脚本 + 角色参考图,分 3~8 个镜头生成。 核心目标:
- 主角长相、服装别乱变
- 场景变化要合理
- 镜头语言要像“同一条片”
2)图生视频:把静态海报变成可控动效
适合:海报动起来、商品氛围动效、封面动态化。
用一张图当“定妆照”,再用提示词控制:
- 只动背景光影
- 只动头发/衣角
- 镜头轻推拉
3)视频续写/改镜头:把已有素材补齐
适合:缺一段转场、缺一个特写、补一个结尾。
用原视频做参考,生成风格/光线/节奏一致的新片段。
4)音频驱动(如果你想做更“像成片”的节奏)
适合:音乐卡点、情绪片、氛围片。
给音乐或旁白,生成更贴节奏的画面变化(至少逻辑上是这个方向)。
开工前的准备:你越懒,越容易翻车
必备三件套
- 一句话定位:这条视频给谁看?卖什么点?
- 角色设定(如果有人物):性别/年龄/发型/衣着/气质,写清楚
- 镜头清单:3~8 个镜头就够了,别一上来就拍“史诗三部曲”
推荐的镜头清单格式(直接抄)
把每个镜头拆成 4 行,模型更好理解:
- 画面主体:谁在干嘛
- 场景:在哪里,时间,氛围
- 镜头:景别(近景/中景/全景),运动(推/拉/摇/移)
- 风格与参数:写实/电影感/动漫,画面质感,光线
四种输入方式怎么选?别瞎堆
A. 纯文本生成:适合从 0 到 1
你只有一个想法,比如“雨夜的城市追逐”。
优点:自由度高。 缺点:一致性更难,需要你写得更细。
B. 图 + 文:最稳的“创作入口”
你有主角设定图、产品图、海报。
优点:角色/风格更稳。 适合:人物一致性、产品外观不能变的场景。
C. 视频 + 文:适合“补拍”和“延展”
你已经有一段素材,想让它多几秒,或换一个角度。
优点:继承原视频风格与节奏更容易。
D. 音频 +(文/图/视频):适合做节奏感
你想要“卡点”、“情绪推进”。
优点:节奏更统一。 风险:音频驱动画面这类功能通常对输入质量更敏感,音乐太乱可能适得其反。
关键玩法:把“多镜头一致性”做出来
多镜头一致性这事儿,不是祈祷能解决的。你得用“约束”。
1)用“角色锁定卡”写死主角
把人物设定写成固定段落,每个镜头都贴进去(或用同一份角色参考图)。
角色锁定卡模板:
- 主角:
- 性别年龄:
- 发型与发色:
- 服装:
- 明显特征:痣/疤/眼镜/首饰
- 气质:冷淡/元气/疲惫/精英
写得越具体越省事。
2)把“风格与镜头语言”固定成一条硬规则
你要的是一条片,不是混剪。
固定项建议写清:
- 画面风格:写实 / 电影感 / 赛博朋克 / 动漫
- 光线:柔光/硬光/霓虹/逆光
- 色调:暖色/冷色/低饱和
- 镜头:尽量别一会儿手持抖动一会儿稳定器
3)分镜不要写成散文,写成可执行指令
坏例子:
他在城市里奔跑,紧张又刺激。
好例子:
- “雨夜街道,路面反光”
- “主角穿黑色风衣,喘息奔跑”
- “中景跟拍,镜头轻微手持感”
- “霓虹灯光,冷色调,电影质感”
4)镜头之间要有“桥”
多镜头最常见翻车:镜头切了,空间关系断了。
你可以在镜头尾/镜头头加桥接词:
- “从上一镜头的街角继续”
- “保持同一套服装与发型”
- “同一时间线,紧接上一镜头”
这个笨办法很管用。
提示词写法:一套通用结构(照填就能用)
把提示词分成 5 块:
- 目的:这是第几镜头?要表达什么?
- 主体:人物/物体外观与动作
- 场景:地点、时间、天气、氛围
- 镜头:景别、运动、焦段感(可选)
- 风格:光线、色彩、质感、清晰度
示例(多镜头短片:镜头 2)
镜头2,紧接镜头1。 主角:25岁亚洲女性,黑色短发,戴银色细框眼镜,黑色风衣与深灰围巾不变,表情紧张。 场景:雨夜城市小巷,地面湿润反光,霓虹招牌在背景虚化。 镜头:中近景跟拍,轻微手持感,镜头向前推进。 风格:电影感写实,冷色调,强对比,细节清晰。
你会发现它不文艺,但很“可控”。
去哪里看效果?怎么判断演示视频值不值得信
官方通常会放 demo 视频。你别只看“好看”,建议你盯 3 件事:
- 同一个角色跨镜头是否稳定:脸、发型、衣服有没有漂
- 动作是否连续:上一镜头抬手,下一镜头手别莫名其妙放下
- 场景逻辑是否一致:街道、建筑、光源方向别乱跳
如果 demo 专门展示“多镜头一致性”和“叙事连贯”,那就说明它想打的就是这个卖点。
避坑清单:这些问题最常见(也最烦)
- 提示词太空:只写“电影感、高清、震撼”这种,稳定性会很差。
- 镜头数量贪多:新模型再强,10+ 镜头也容易崩。控制在 3~8 个更现实。
- 每个镜头都换风格:你自己都不统一,模型更不可能统一。
- 角色设定不固定:上一镜头“黑色风衣”,下一镜头没写,衣服就可能换。
- 缺少镜头衔接语:镜头之间没有“紧接上一镜头/同一地点”,跳戏概率飙升。
一个推荐工作流:让你少熬夜、少返工 🧠
- 用“图 + 文”把角色定下来(定妆照)
- 写 3~5 个镜头的分镜清单(每个镜头 4 行结构)
- 先把镜头 1~2 跑通,确认角色与风格稳定
- 再扩到 5~8 镜头
- 发现某个镜头漂了:别硬修,回到“角色锁定卡 + 镜头桥接语”补约束
你可以直接复制的分镜模板(Markdown 版)
# 短片标题:
## 统一规则(全片通用)
- 角色锁定卡:
- 风格:
- 色调与光线:
- 镜头语言:
## 镜头1
- 主体:
- 场景:
- 镜头:
- 风格与要求:
## 镜头2(紧接镜头1)
- 主体:
- 场景:
- 镜头:
- 风格与要求:
## 镜头3(保持同一服装/同一时间线)
- 主体:
- 场景:
- 镜头:
- 风格与要求:
拿这个做底稿,再去跑 demo 或者接入你手头的平台,就会顺很多。
如果你把你想做的视频类型(剧情/产品/口播B-roll/音乐卡点)和你已有素材(有没有角色图、有没有参考视频、有没有音乐)发我,我可以按你的场景把分镜模板填一版,顺便给一组更稳的提示词。