谷歌 Gemini Omni 视频模型初看：英文很稳，书写动作还差点意思

谷歌又放出了一个新视频模型：Gemini Omni。

一句话感受：

英文视频表现挺顺，口播和节奏有点东西；但涉及“写字过程”的画面，还没到特别丝滑的程度。

这有点像视频领域的 nano banana 时刻。

不是说它已经碾压全场，而是说：大家开始意识到，视频生成模型正在从“做个炫酷短片”走向“能不能真的帮我干活”。

比如：

做英文产品介绍视频
生成教学类口播片段
做广告分镜草稿
给短视频账号批量出素材
快速测试一个创意能不能成立

听起来很爽，对吧？

但别急着吹。AI 视频模型最怕的就是：演示片看着惊艳，自己一用就翻车。

下面咱们直接拆。

Gemini Omni 到底值得看什么？

目前最明显的看点有三个。

1. 英文表达比较自然

从已有展示看，Gemini Omni 生成的视频里，英文表达相对流畅。

这里的“流畅”不是指字幕拼得对，而是视频整体像一个正常英文内容：

语气没那么僵
句子衔接比较顺
画面节奏能跟着内容走
口播感不像硬读稿

这对做英文内容的人很关键。

比如你想做一个 30 秒的 SaaS 产品介绍，不用再纠结找配音、剪素材、配画面。你只要把产品卖点讲清楚，模型就有机会直接生成一个可用初稿。

当然，可用初稿不等于成片。

真要发广告，还得人工检查细节。

最大槽点：写字过程还不够丝滑

视频模型最容易露馅的地方是什么？

不是大场景。

是细节动作。

比如：

手指拿笔
笔尖落在纸上
字是一笔一划写出来的
手腕和纸张透视关系一致
写完的文字不乱跳、不变形

这类动作对模型来说很难。

因为它不只是“生成一张图”。它得理解动作连续性。

你写一个字，前一帧笔尖在左边，后一帧不能突然跑到右上角；上一秒纸上没有字，下一秒不能凭空蹦出来一整行。

目前看，Gemini Omni 在“英文内容呈现”上有亮点，但“书写过程”还没到特别自然。

如果你的场景是：

一个老师在白板上边写公式边讲解。

那就要谨慎。

它可能能生成“像老师讲课”的视频，却未必能稳定生成“老师真的在一笔一划写公式”的视频。

这俩差别很大。

和 Seedance 比，应该看哪些指标？

很多人会问：Gemini Omni 能不能干过 Seedance？

现在下结论太早。

模型评测不能只看一条演示视频。

咱们要看具体场景。

可以重点对比这 6 项

| 对比项 | 重点看什么 | |---|---| | 人物动作 | 手、脸、身体是否稳定，有没有奇怪抽搐 | | 文字能力 | 字幕、招牌、白板字能不能写对 | | 语义理解 | 提示词里的动作和镜头有没有被执行 | | 镜头控制 | 推拉摇移、景别切换是否自然 | | 多语言表现 | 中文、英文、混合语言是否稳定 | | 可控性 | 改一处细节会不会整段视频崩掉 |

别只看“画面漂不漂亮”。

漂亮很容易骗眼睛。

真正能干活的模型，要能听话。

你让它生成一个“咖啡店老板把今日菜单写在黑板上”的视频，它不能只给你一个人在咖啡店里微笑。

那叫氛围对了，任务没完成。

中文视频才是关键测试

现在更值得期待的是：Gemini Omni 的中文视频表现。

英文强，不代表中文也强。

中文视频难点更多。

中文视频常见翻车点

字会写错
字形像乱码
口型和中文发音对不上
语气像翻译稿
标语、菜单、招牌容易变形
人物说中文时表情不自然

比如你让模型生成：

一个中国老师在教室里讲“鸡兔同笼”，并在黑板上写下解题步骤。

这就很考验模型。

它要懂中文语义，还要处理黑板字、教学动作、口播节奏。

如果 Gemini Omni 后续能把中文白板、中文口播、中文招牌做好，那才是真的狠。

普通创作者怎么用这类模型？

别等模型完美。

完美模型还没来，能帮你省时间的工具已经能用了。

你可以把 Gemini Omni 这类视频模型当成三个角色。

角色一：分镜草稿机

你脑子里有一个广告创意，但不知道拍出来啥样。

直接让模型生成 10 秒草稿。

看完你就知道：

这个创意有没有画面感
镜头是不是太乱
角色设定能不能成立
产品出现得够不够自然

这比你开会聊半小时强多了。

角色二：英文短视频初稿机

如果你做海外内容，可以用它快速生成英文口播视频。

适合这些场景：

App 功能介绍
AI 工具推荐
产品上新预告
社媒广告素材
YouTube Shorts 测试片段

注意，别一次就让它做最终版。

更稳的做法是：

先生成 5 秒版本，看风格对不对
再扩到 15 秒，测试镜头连续性
把表现最好的片段拿去剪辑
字幕、品牌 Logo、关键信息自己后期加

AI 负责出画面，你负责兜底。

这样最安全。

角色三：创意测试工具

很多短视频账号死在一个地方：想太久，发太少。

你可以用视频模型快速测试不同开头。

比如同一个主题：

“一款能自动整理会议纪要的 AI 工具”

你可以生成 5 个开头：

上班族对着一堆会议录音崩溃
老板临时要会议总结，员工打开 AI 工具救场
两个同事对比手动整理和 AI 整理
手机弹出会议摘要，用户在地铁上直接转发
屏幕录制风格展示工具工作流

哪个更有点击欲望，一眼就能看出来。

提示词怎么写更稳？

视频模型吃提示词，但别写成作文。

你要给它清晰的镜头指令。

书写类视频怎么避免翻车？

如果你非要让模型生成写字画面，建议这么做。

更稳的写法

一个老师站在白板前讲解概念，白板上已经提前写好了清晰的英文关键词。老师用手指指向关键词，而不是现场书写。镜头稳定，中景，真实教学视频风格。

重点来了：

能不让它现场写，就别让它现场写。

你可以改成：

白板文字提前存在
人物指向文字
手拿笔停在文字旁边
后期自己加字幕或文字动画

这样成功率高很多。

AI 视频现在最怕“连续精细动作”。写字、打字、弹琴、做手术、织毛衣，全是高风险区。

别跟模型硬刚。

咱们是来出片的，不是来给自己添堵的。

避坑清单：看到演示别急着付费

Gemini Omni 后面如果开放使用，建议你先测这些内容。

必测场景

生成中文口播，看口型和语气
生成中文招牌，看有没有错字
生成手部动作，看手指是否稳定
生成白板教学，看文字是否漂移
生成产品广告，看品牌信息是否准确
连续修改同一条视频，看画面会不会越改越乱

不建议一上来就做的事

直接生成正式广告片
直接生成复杂剧情短片
直接生成带大量中文文字的视频
直接生成老师现场写公式的视频
直接把 AI 成片交给客户

AI 视频很强，但它还需要人盯着。

尤其是商业内容。

错一个字，可能就不是“瑕疵”，是事故。

我的判断

Gemini Omni 值得关注。

它在英文视频生成上已经露出了不错的苗头，尤其适合英文内容创作者、海外营销团队、AI 工具博主去尝鲜。

但现在别急着喊“谁被干翻了”。

真正的分水岭在中文、多语言、文字稳定性和细节动作。

如果后续中文视频也能保持稳定，尤其是中文口播、中文招牌、中文教学这几类场景能打，那它会变得非常有竞争力。

现在更务实的用法是：

用它做创意草稿
用它测英文短视频方向
用它生成广告片初版
避开写字、复杂手部动作、密集中文文字

别迷信模型，也别低估它。

会用的人，已经能用它少熬几个夜了。

谷歌 Gemini Omni 视频模型初看：英文很稳，书写动作还差点意思

谷歌 Gemini Omni 视频模型初看：英文很稳，书写动作还差点意思

Gemini Omni 到底值得看什么？

1. 英文表达比较自然

最大槽点：写字过程还不够丝滑

和 Seedance 比，应该看哪些指标？

可以重点对比这 6 项

中文视频才是关键测试

中文视频常见翻车点

普通创作者怎么用这类模型？

角色一：分镜草稿机

角色二：英文短视频初稿机

角色三：创意测试工具

提示词怎么写更稳？

推荐结构

书写类视频怎么避免翻车？

更稳的写法

避坑清单：看到演示别急着付费

必测场景

不建议一上来就做的事

我的判断