谷歌 Veo 3.1 正式发布:新增音频功能和精细化编辑能力
谷歌推出了视频生成模型Veo3.1,这是对今年5月发布的Veo3的升级版本。新版本在音频输出、编辑控制粒度和图像转视频质量等方面实现了改进,能够生成更真实的视频片段并更准确地遵循用户提示指令。
在功能层面,Veo3.1允许用户向视频中添加新对象,系统会自动将其融入原有画面风格。谷歌还透露,即将在其视频编辑工具Flow中支持从视频中移除现有对象的功能,进一步增强编辑灵活性。
Veo3此前已经提供了多项编辑特性,包括通过参考图像驱动角色生成、提供首尾帧由AI生成中间内容,以及基于末尾帧扩展现有视频等功能。Veo3.1的核心升级在于为所有这些编辑功能增加了音频生成能力,使输出的视频片段具备声音元素,提升了内容的完整性和沉浸感。
从部署渠道来看,Veo3.1将通过多个平台向用户开放。谷歌正在将该模型集成到视频编辑器Flow、Gemini应用程序,以及面向开发者的Vertex AI和Gemini API接口中。据谷歌披露的数据,自Flow在5月上线以来,用户已在该平台上创作了超过2.75亿个视频。
这次更新体现了AI视频生成技术在两个方向上的演进。一方面是生成质量的持续提升——更真实的画面、更准确的提示词理解;另一方面是编辑能力的细化——从整体生成到局部修改、对象增删等精细操作。音频生成的加入则填补了此前AI视频工具普遍缺乏声音元素的短板。
不过从技术成熟度来看,AI视频生成仍处于快速迭代阶段。视频的连贯性、物理规律的准确性、复杂场景的处理能力等方面,各家模型都在持续改进中。Veo3.1的实际表现,包括音频与画面的同步质量、对象融合的自然度等细节,还需要通过用户实际使用来验证。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
苹果 AI 项目高管跳槽 Meta,Siri 团队面临挑战
苹果公司一名重要的 AI 高管 Ke Yang 近日决定离职,转投 Meta 公司。据彭博社报道,Yang 在几周前刚被任命为苹果的 Answers、Knowledge and Information(AKI)团队负责人。该团队的主要目标是提升 Siri 语音助手的能力,使其更加智能化,能够像 ChatGPT 一样直接从网络上获取信息。 AKI 团队在苹果 Siri 的大改版中扮演着核心角色,此次改版也是苹果为了重振其 AI 业务而采取的措施。新版 Siri 将引入一些早先推迟的功能,包括处理更复杂请求的能力,以及更好地利用用户的个人数据来提升服务质量。苹果希望通过 “Answers” 功能,能够在快速发展的 AI 搜索市场中与 OpenAI、Google 的 Gemini 等竞争。 Ke Yang 在苹果的 AI 与机器学习高级副总裁 John Giannandrea 的直接领导下工作。在接任 AKI 部门之前,他一直负责与搜索相关的项目。这一改版项目是由苹果的人工智能与机器学习组与 Siri 工程团队共同开发的,Yang 在其中被视为关键的高管之一。Yang 的离职引发了人们对苹果...
-
下一篇
Arm 首席执行官:将部分工作负载从云端转移将有助降低 AI 电力需求
芯片设计公司Arm Holdings首席执行官雷内·哈斯(Rene Haas)周三接受采访时表示,将一些人工智能功能从云端移走有助于减少能源消耗。 他认为,随着时间的推移,大量吉瓦级的数据中心是不可持续的。 “我认为有两个载体,”哈斯说,“一个是低功耗,你可以在云中获得最低功耗的解决方案。Arm确实有贡献。但我认为更具体的是将这些人工智能工作负载从云转移到本地应用程序。” 虽然他说AI训练可能总是在云端进行,但运行人工智能,即所谓的推理,可以在本地进行,也就是在人们的手机、电脑和眼镜内的芯片上进行。哈斯说,历史表明,“我们总是采用混合计算模式”。 他认为,在人工智能方面,混合动力将发挥作用,这将有助于减少巨大的电力投资。 Arm的技术为包括微软和亚马逊在内的许多大型科技公司生产的设备提供支持。英伟达持有Arm的多数股份,并在2020年试图收购该公司。 Arm和Meta周三表示,他们将扩大合作伙伴关系,“在跨越AI软件和数据中心基础设施的每一层计算上扩展AI效率”。消息公布后,Arm股价上涨,收盘涨1.49%。 哈斯在采访中表示,与Meta的合作“主要围绕数据中心展开,但更广泛……围绕着...
相关文章
文章评论
共有0条评论来说两句吧...