去年,Google推出了Nano Banana,将Gemini的智能带入了图像生成和编辑领域——帮助数百万人修复老照片、从草图开始设计、以此前无法实现的方式可视化创意。在I/O 2026大会上,Google宣布了这项能力的下一个延伸:Gemini Omni。
Gemini Omni将Gemini的推理能力与视频生成创作能力融合,是一款能够从任意输入创作内容的模型——从视频开始,用户可以结合图像、音频、视频和文本作为输入,生成基于Gemini真实世界知识的高质量视频,还可以通过对话轻松编辑视频。标志着在世界理解、全模态处理和视频编辑能力上的飞跃。

如果要把Gemini Omni比作什么,那它就像是视频领域的"Nano Banana":用户每一次编辑都建立在前一次的基础上,保持场景的连贯一致。用户可以通过自然的对话逐步构建和完善视频——改变特定细节、环境、摄像机角度,甚至物体的物理属性,每一次修改都会自动适应前一次的上下文,不会出现风格割裂的问题。

Gemini Omni的核心能力在于全模态理解和生成。它能同时处理视频、图片、文本和音频输入,并将它们融合为一个连贯的输出。这种全模态参考能力为创意工作者提供了前所未有的灵活性。例如,用户可以上传一张风格参考图、一段音乐作为节奏提示,然后用自然语言描述想要的场景,Gemini Omni将综合这些输入生成符合要求的视频。每一轮对话编辑都会保留前序的上下文,让创作者能够以渐进式的方式打磨作品。

在物理世界理解方面,Omni对重力、动能、流体动力学等物理规律有直观认知,生成的内容遵循现实世界的物理逻辑。在知识层面,它调用Gemini积累的历史、科学和数学知识,能够构建符合现实逻辑的场景——这使其区别于单纯追求视觉真实的视频生成模型,进入到有意义叙事的范畴。
Gemini Omni展示了强大的"世界变换"能力,可以基于输入视频改变美学风格、动作或特效。官方示例展示了多种变换效果:
- 液态金属效果:当人物触摸镜子时,镜面产生美丽的液态涟漪,人物手臂变成镜面材质
- 线条艺术风格:人物瞬间转变为详细的单色线条艺术绘画
- 毛毡玩偶效果:人物变成可爱的毛毡填充玩偶,带有大大的活动眼睛和眼镜
- 复古全息图:人物转变为复古单色透明3D线条艺术全息图,置于单色3D全息甲板中
这些变换不仅改变视觉风格,还能保持场景的结构和细节,确保变换后的视频在物理上合理、视觉上连贯。


安全性方面,Gemini Omni Flash在开发和部署过程中均与内部安全团队合作进行了广泛评估,包括自动化测试、人工红队演练、专项安全审查等。所有在Gemini应用、Google Flow或YouTube上使用Omni创建或编辑的内容都带有Google的SynthID隐形数字水印和C2PA内容凭证,用户可以验证内容是否由AI生成或编辑。
Gemini Omni目前已在Gemini、Google Flow和YouTube Shorts中可用。
参考来源:
- Google官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
- Google DeepMind:https://deepmind.google/models/gemini-omni/