首页 / 正文

谷歌 Gemini Omni 视频模型初看:英文很稳,书写动作还差点意思

Mooko
发布于 2026-05-18 · 5分钟阅读
1496 浏览
0 点赞 暴击点赞!

谷歌 Gemini Omni 视频模型初看:英文很稳,书写动作还差点意思

谷歌又放出了一个新视频模型:Gemini Omni

一句话感受:

英文视频表现挺顺,口播和节奏有点东西;但涉及“写字过程”的画面,还没到特别丝滑的程度。

这有点像视频领域的 nano banana 时刻

不是说它已经碾压全场,而是说:大家开始意识到,视频生成模型正在从“做个炫酷短片”走向“能不能真的帮我干活”。

比如:

  • 做英文产品介绍视频
  • 生成教学类口播片段
  • 做广告分镜草稿
  • 给短视频账号批量出素材
  • 快速测试一个创意能不能成立

听起来很爽,对吧?

但别急着吹。AI 视频模型最怕的就是:演示片看着惊艳,自己一用就翻车。

下面咱们直接拆。


Gemini Omni 到底值得看什么?

目前最明显的看点有三个。

1. 英文表达比较自然

从已有展示看,Gemini Omni 生成的视频里,英文表达相对流畅。

这里的“流畅”不是指字幕拼得对,而是视频整体像一个正常英文内容:

  • 语气没那么僵
  • 句子衔接比较顺
  • 画面节奏能跟着内容走
  • 口播感不像硬读稿

这对做英文内容的人很关键。

比如你想做一个 30 秒的 SaaS 产品介绍,不用再纠结找配音、剪素材、配画面。你只要把产品卖点讲清楚,模型就有机会直接生成一个可用初稿。

当然,可用初稿不等于成片。

真要发广告,还得人工检查细节。


最大槽点:写字过程还不够丝滑

视频模型最容易露馅的地方是什么?

不是大场景。

是细节动作。

比如:

  • 手指拿笔
  • 笔尖落在纸上
  • 字是一笔一划写出来的
  • 手腕和纸张透视关系一致
  • 写完的文字不乱跳、不变形

这类动作对模型来说很难。

因为它不只是“生成一张图”。它得理解动作连续性。

你写一个字,前一帧笔尖在左边,后一帧不能突然跑到右上角;上一秒纸上没有字,下一秒不能凭空蹦出来一整行。

目前看,Gemini Omni 在“英文内容呈现”上有亮点,但“书写过程”还没到特别自然。

如果你的场景是:

一个老师在白板上边写公式边讲解。

那就要谨慎。

它可能能生成“像老师讲课”的视频,却未必能稳定生成“老师真的在一笔一划写公式”的视频。

这俩差别很大。


和 Seedance 比,应该看哪些指标?

很多人会问:Gemini Omni 能不能干过 Seedance?

现在下结论太早。

模型评测不能只看一条演示视频。

咱们要看具体场景。

可以重点对比这 6 项

| 对比项 | 重点看什么 | |---|---| | 人物动作 | 手、脸、身体是否稳定,有没有奇怪抽搐 | | 文字能力 | 字幕、招牌、白板字能不能写对 | | 语义理解 | 提示词里的动作和镜头有没有被执行 | | 镜头控制 | 推拉摇移、景别切换是否自然 | | 多语言表现 | 中文、英文、混合语言是否稳定 | | 可控性 | 改一处细节会不会整段视频崩掉 |

别只看“画面漂不漂亮”。

漂亮很容易骗眼睛。

真正能干活的模型,要能听话。

你让它生成一个“咖啡店老板把今日菜单写在黑板上”的视频,它不能只给你一个人在咖啡店里微笑。

那叫氛围对了,任务没完成。


中文视频才是关键测试

现在更值得期待的是:Gemini Omni 的中文视频表现。

英文强,不代表中文也强。

中文视频难点更多。

中文视频常见翻车点

  • 字会写错
  • 字形像乱码
  • 口型和中文发音对不上
  • 语气像翻译稿
  • 标语、菜单、招牌容易变形
  • 人物说中文时表情不自然

比如你让模型生成:

一个中国老师在教室里讲“鸡兔同笼”,并在黑板上写下解题步骤。

这就很考验模型。

它要懂中文语义,还要处理黑板字、教学动作、口播节奏。

如果 Gemini Omni 后续能把中文白板、中文口播、中文招牌做好,那才是真的狠。


普通创作者怎么用这类模型?

别等模型完美。

完美模型还没来,能帮你省时间的工具已经能用了。

你可以把 Gemini Omni 这类视频模型当成三个角色。

角色一:分镜草稿机

你脑子里有一个广告创意,但不知道拍出来啥样。

直接让模型生成 10 秒草稿。

看完你就知道:

  • 这个创意有没有画面感
  • 镜头是不是太乱
  • 角色设定能不能成立
  • 产品出现得够不够自然

这比你开会聊半小时强多了。

角色二:英文短视频初稿机

如果你做海外内容,可以用它快速生成英文口播视频。

适合这些场景:

  • App 功能介绍
  • AI 工具推荐
  • 产品上新预告
  • 社媒广告素材
  • YouTube Shorts 测试片段

注意,别一次就让它做最终版。

更稳的做法是:

  1. 先生成 5 秒版本,看风格对不对
  2. 再扩到 15 秒,测试镜头连续性
  3. 把表现最好的片段拿去剪辑
  4. 字幕、品牌 Logo、关键信息自己后期加

AI 负责出画面,你负责兜底。

这样最安全。

角色三:创意测试工具

很多短视频账号死在一个地方:想太久,发太少。

你可以用视频模型快速测试不同开头。

比如同一个主题:

“一款能自动整理会议纪要的 AI 工具”

你可以生成 5 个开头:

  • 上班族对着一堆会议录音崩溃
  • 老板临时要会议总结,员工打开 AI 工具救场
  • 两个同事对比手动整理和 AI 整理
  • 手机弹出会议摘要,用户在地铁上直接转发
  • 屏幕录制风格展示工具工作流

哪个更有点击欲望,一眼就能看出来。


提示词怎么写更稳?

视频模型吃提示词,但别写成作文。

你要给它清晰的镜头指令。

推荐结构

视频时长:8 秒
画面比例:16:9
场景:现代办公室,下午自然光
人物:一位 30 岁左右的产品经理,坐在电脑前
动作:他打开一个 AI 工具,自动生成会议纪要,表情从焦虑变轻松
镜头:中景开始,慢慢推近到电脑屏幕
风格:真实广告片,干净,明亮,轻微景深
语言:英文口播,语气自然
避免:不要出现乱码文字,不要多余手指,不要夸张表情

这类提示词比“帮我生成一个很高级的 AI 视频”靠谱太多。

模型不是你肚子里的蛔虫。

你不给细节,它就自由发挥。

自由发挥的结果,常常是你沉默三秒,然后点删除。


书写类视频怎么避免翻车?

如果你非要让模型生成写字画面,建议这么做。

更稳的写法

一个老师站在白板前讲解概念,白板上已经提前写好了清晰的英文关键词。老师用手指指向关键词,而不是现场书写。镜头稳定,中景,真实教学视频风格。

重点来了:

能不让它现场写,就别让它现场写。

你可以改成:

  • 白板文字提前存在
  • 人物指向文字
  • 手拿笔停在文字旁边
  • 后期自己加字幕或文字动画

这样成功率高很多。

AI 视频现在最怕“连续精细动作”。写字、打字、弹琴、做手术、织毛衣,全是高风险区。

别跟模型硬刚。

咱们是来出片的,不是来给自己添堵的。


避坑清单:看到演示别急着付费

Gemini Omni 后面如果开放使用,建议你先测这些内容。

必测场景

  • 生成中文口播,看口型和语气
  • 生成中文招牌,看有没有错字
  • 生成手部动作,看手指是否稳定
  • 生成白板教学,看文字是否漂移
  • 生成产品广告,看品牌信息是否准确
  • 连续修改同一条视频,看画面会不会越改越乱

不建议一上来就做的事

  • 直接生成正式广告片
  • 直接生成复杂剧情短片
  • 直接生成带大量中文文字的视频
  • 直接生成老师现场写公式的视频
  • 直接把 AI 成片交给客户

AI 视频很强,但它还需要人盯着。

尤其是商业内容。

错一个字,可能就不是“瑕疵”,是事故。


我的判断

Gemini Omni 值得关注。

它在英文视频生成上已经露出了不错的苗头,尤其适合英文内容创作者、海外营销团队、AI 工具博主去尝鲜。

但现在别急着喊“谁被干翻了”。

真正的分水岭在中文、多语言、文字稳定性和细节动作。

如果后续中文视频也能保持稳定,尤其是中文口播、中文招牌、中文教学这几类场景能打,那它会变得非常有竞争力。

现在更务实的用法是:

  • 用它做创意草稿
  • 用它测英文短视频方向
  • 用它生成广告片初版
  • 避开写字、复杂手部动作、密集中文文字

别迷信模型,也别低估它。

会用的人,已经能用它少熬几个夜了。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取