“全模态” Gemini Omni 来了，谷歌用自然对话重新定义视频创作-低调大师

“全模态” Gemini Omni 来了，谷歌用自然对话重新定义视频创作

2026-05-20 56

去年，Google推出了Nano Banana，将Gemini的智能带入了图像生成和编辑领域——帮助数百万人修复老照片、从草图开始设计、以此前无法实现的方式可视化创意。在I/O 2026大会上，Google宣布了这项能力的下一个延伸：Gemini Omni。

Gemini Omni将Gemini的推理能力与视频生成创作能力融合，是一款能够从任意输入创作内容的模型——从视频开始，用户可以结合图像、音频、视频和文本作为输入，生成基于Gemini真实世界知识的高质量视频，还可以通过对话轻松编辑视频。标志着在世界理解、全模态处理和视频编辑能力上的飞跃。

如果要把Gemini Omni比作什么，那它就像是视频领域的"Nano Banana"：用户每一次编辑都建立在前一次的基础上，保持场景的连贯一致。用户可以通过自然的对话逐步构建和完善视频——改变特定细节、环境、摄像机角度，甚至物体的物理属性，每一次修改都会自动适应前一次的上下文，不会出现风格割裂的问题。

Gemini Omni的核心能力在于全模态理解和生成。它能同时处理视频、图片、文本和音频输入，并将它们融合为一个连贯的输出。这种全模态参考能力为创意工作者提供了前所未有的灵活性。例如，用户可以上传一张风格参考图、一段音乐作为节奏提示，然后用自然语言描述想要的场景，Gemini Omni将综合这些输入生成符合要求的视频。每一轮对话编辑都会保留前序的上下文，让创作者能够以渐进式的方式打磨作品。

在物理世界理解方面，Omni对重力、动能、流体动力学等物理规律有直观认知，生成的内容遵循现实世界的物理逻辑。在知识层面，它调用Gemini积累的历史、科学和数学知识，能够构建符合现实逻辑的场景——这使其区别于单纯追求视觉真实的视频生成模型，进入到有意义叙事的范畴。

Gemini Omni展示了强大的"世界变换"能力，可以基于输入视频改变美学风格、动作或特效。官方示例展示了多种变换效果：

液态金属效果：当人物触摸镜子时，镜面产生美丽的液态涟漪，人物手臂变成镜面材质
线条艺术风格：人物瞬间转变为详细的单色线条艺术绘画
毛毡玩偶效果：人物变成可爱的毛毡填充玩偶，带有大大的活动眼睛和眼镜
复古全息图：人物转变为复古单色透明3D线条艺术全息图，置于单色3D全息甲板中

这些变换不仅改变视觉风格，还能保持场景的结构和细节，确保变换后的视频在物理上合理、视觉上连贯。

安全性方面，Gemini Omni Flash在开发和部署过程中均与内部安全团队合作进行了广泛评估，包括自动化测试、人工红队演练、专项安全审查等。所有在Gemini应用、Google Flow或YouTube上使用Omni创建或编辑的内容都带有Google的SynthID隐形数字水印和C2PA内容凭证，用户可以验证内容是否由AI生成或编辑。

Gemini Omni目前已在Gemini、Google Flow和YouTube Shorts中可用。

参考来源：

Google官方博客：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
Google DeepMind：https://deepmind.google/models/gemini-omni/

微信关注我们

原文链接：https://www.oschina.net/news/443254/google-deepmind-gemini-omni

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

xAI 发布 Grok Skills，让 AI 跨对话记住你的偏好和工作流程

xAI正式发布了Grok Skills功能——这是一种能让Grok在跨对话场景中持续记住用户偏好、格式规则和工作流程的持久化能力。长期以来，AI助手的一个核心痛点在于每次新对话都要重新解释背景信息：你的写作风格偏好吗？表格需要什么样的格式？演示文稿要遵循怎样的配色逻辑？这些在人类助理眼中不言自明的"隐性知识"，每换一个对话就得从头教起。Skills的推出正是为了解决这个问题——用户只需教Grok一次，它就会在之后的所有对话中记住这些内容，不再需要重复。 https://grok.com/skills 每个Grok账户开箱即具...

2026-05-20

46

在 SUSE 因持续的安全隐患决定移除其 Deepin 桌面软件包一年后，Fedora Linux 也因类似的安全隐患以及软件包维护不力而决定移除其 Deepin 软件包。一年前，在 SUSE/openSUSE 披露 Deepin 的安全问题后， FESCo 曾为此开启了一项工单，要求对 Deepin 进行安全审查。而在此期间，Fedora 开发人员一直难以联系到一些 Deepin 软件包的维护者。时至今日，最新的 FESCo 会议商讨决定，从 Fedora 中移除所有 Deepin 软件包： “AGREED：下架列表中的所有软件包，以及提及 fesco 工单的相关消息。如收到...

2026-05-20

79

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。