Gemini Omni Video:Google 多模态视频模型正式登陆 MakeClipAI
Google 的 Gemini Omni Video 现已上线 MakeClipAI。这是平台首个真正多模态的视频模型——一次请求即可同时传入图片、视频片段、角色参考和音频。
几周前,我写过一篇关于如何根据视频阶段选择模型的文章。当时提到的模型——Kling、Seedance、Veo 3、Hailuo——工作方式都差不多:给个提示词,或许再传一张参考图,就能生成一个片段。
这个局面正在被打破。
Google 的 Gemini Omni Video 刚刚通过 kie.ai 市场登陆 MakeClipAI。这是平台上第一个真正实现多模态融合的模型。你不再是单纯的"文字转视频"。你可以同时传入图片、视频片段、角色 ID 和音频——所有这些在同一请求中——模型将它们融合成一个连贯的输出。
我用了几天时间测试。以下是它对我撰写 AI 视频提示词方式的真正改变。
"Omni" 到底有什么不同
大多数 AI 视频模型把你的提示词当作一段描述。你写"一座未来主义风格的霓虹夜景城市",模型就据此生成一个全新的画面。
Gemini Omni 的工作方式完全不同。它被训练成同时融合多种输入:
- 文字提示词:核心描述,和其他模型一样
- 图片 URL(最多 7 张):用于角色外观、场景风格或分镜参考
- 视频片段(最多 1 个,≤30 秒):用于混剪、延展或风格迁移的源视频
- 角色 ID(最多 3 个):来自 gemini-omni-character API 的角色参考——保持角色跨生成的一致性
- 音频 ID(最多 3 个):来自 gemini-omni-audio 的旁白、对话或音效设计
关键区别在于:它可以同时组合所有这些输入。一张角色参考图 + 一段动态背景视频 + 一段旁白音频 + 一段整体氛围的文字描述。这在之前的模型中是做不到的。
配额系统值得理解
由于模型同时处理多种输入,API 使用了一个简单的配额系统。可以理解为你有 7 个插槽:
- 每张图片占用 1 个插槽
- 每个视频占用 2 个插槽
- 每个角色 ID占用 1 个插槽
公式:(图片数 × 1) + (视频数 × 2) + (角色 ID 数 × 1) ≤ 7
实际场景:
- 7 张图片,不带其他输入
- 1 个视频 + 3 个角色 ID + 2 张图片
- 5 张图片 + 2 个角色 ID
- 或者任意组合不超过 7 即可
这其实相当宽裕。大多数情况下你只需要 1-2 张图片。
它的亮点在哪里
角色一致性是最大的优势。如果你用过其他 AI 视频模型,你应该很清楚那种痛苦——让"同一个"角色在多段镜头中保持外观统一。有了 Gemini Omni,你可以通过角色 API 传入角色参考,它会在多次生成中尊重这个参考。这对叙事类创作来说是一个巨大的进步——多场景故事讲述中,主角需要让观众认出是同一个人。
视频风格迁移同样出色。喂给它一段 10 秒的源视频(特定灯光、运镜、调色风格),它可以生成匹配该风格的新内容。源视频不需要多高的制作水准——即使是粗糙的手机拍摄也能作为有效参考。
音频引导生成虽然还在早期阶段,但很有前景。你可以通过 gemini-omni-audio 端点生成对话或旁白,然后传入音频 ID。生成的视频输出能比较准确地与音频同步,这在后期制作中能省去大量的口型同步或配音对齐工作。
哪些场景不适合
说实话,我们也需要看到它的局限性。
如果你只是做简单的文字转视频——"一只弹钢琴的猫"——Gemini Omni 就是杀鸡用牛刀。你为用不到的的多模态处理付了额外的钱。Seedance 1.5 或 Kling 2.6 能更快更便宜地处理简单提示词。
同样,快速广告测试场景也不适合。如果你想在一个下午快速迭代 20 个钩子文案,配额系统反而增加了摩擦。比较好的做法是先用 Seedance 或 Kling 快速迭代,等到了最终精修版本再用 Gemini Omni。
时长也有限制。最大输出是 10 秒。对于更长的场景,你仍然需要用 Director 模式搭配 Seedance 1.5 或多场景 Kling 3.0。
这对 MakeClipAI 用户意味着什么
Gemini Omni Video 现在可以在模型选择器中直接使用。它和 Veo 3、Kling 3.0、Seedance、Hailuo 并列——一样的"一键生成"工作流程。
价格和高级模型相当:
| 时长 | 积分 |
|---|---|
| 4秒 | 65 |
| 6秒 | 90 |
| 8秒 | 115 |
| 10秒 | 140 |
我的建议:当你需要多模态输入(角色参考 + 音频 + 视频)时使用它。对于标准的文字转视频,继续用 Seedance 或 Kling。把 Gemini Omni 当作你的"合成"模型——当你觉得一个简单提示词加一张参考图不够用的时候,再拿起它。
相关阅读
更多文章
From prompt to video: my complete AI video workflow for Instagram
I make 5 AI videos for Instagram every week. Here's my complete workflow from blank page to published Reel — including the prompts I use.

AI video for social media: what actually works for engagement in 2025
I tested 6 different AI video styles across TikTok, Instagram, and YouTube Shorts. Here's what got views, what got ignored, and why.
