Stability AI 开源视频生成模型 Stable Video Diffusion
Stability AI 发布了开源视频生成模型 Stable Video Diffusion,该模型基于该公司现有的 Stable Diffusion 文本转图像模型,能够通过对现有图像进行动画化生成视频。
主要特性
- 文本到视频
- 图像到视频
- 14 或 25 帧,576 x 1024分辨率
- 多视图生成
- 帧插值
- 支持3D 场景
- 通过 LoRA 控制摄像机
Stable Video Diffusion 提供两个模型,分别为 SVD 和 SVD-XT。其中,SVD 将静止图像转换为 14 帧的 576x1024 视频,而 SVD-XT 在相同的架构下将帧数提升至 24。
两者都能以每秒 3 到 30 帧的速度生成视频。白皮书显示,这两个模型最初在数百万个视频的数据集上进行训练,然后在数十万到百万数量级的较小数据集上进行“微调”。
Stability AI 称正在开发一个新的网络平台,包括一个文本到视频的界面。这个工具将展示Stable Video Diffusion在广告、教育、娱乐等多个领域的实际应用。
开源地址

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI 面向所有用户免费开放 ChatGPT Voice
OpenAI 今天宣布面向所有用户免费开放 ChatGPT Voice。 OpenAI 于今年 9 月推出了基于 ChatGPT 的文本转语音功能ChatGPT Voice——使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向 ChatGPT Plus 订阅用户提供,现在向所有免费用户推出。 据介绍,ChatGPT Voice 通过采样配音演员录制的几秒钟音频,能够创建具有不同口音和风格的自定义声音。为用户提供对话功能,其整体对话的信息均以对话的形式输入输出,支持暂停、中断、更换音色等功能,并在对话结束后提供文字版进行参考。 要使用新的语音选项,ChatGPT 用户只需在 Android或 iOS 上打开应用程序设置,并切换“耳机”图标即可激活文本转语音功能。 OpenAI 前总裁 Greg Brockman 随后跟帖表示:“ChatGPT Voice 已面向所有免费用户推出。欢迎尝试 —— 彻底改变 ChatGPT 体验。”
- 下一篇
国内外开源基金会基于 OpenHarmony 的开源平台 Oniro 达成合作
开放原子开源基金会宣布与 Eclipse 基金会基于 OpenHarmony 的开源项目 Oniro 正式签署合作协议。 据称本次签约开放原子开源基金会创造了两个第一,一是开源历史上第一次两个基金会通过代码、品牌、IP、认证等方式共同发展一个开源生态,为开源业内提供了合作的新典范,为开源全球合作探索了发展的新范式。二是国内开源基金会第一次同海外基金会完成合作签约,双方在技术项目、开发者生态、营销活动上发挥各自优势,共同在世界范围内推动开源项目发展。 Oniro 是致力于开发与供应商无关的开源操作系统 (OS) 平台。Oniro 项目基于两个全球开源基金会(Eclipse 基金会和 OpenAtom 基金会)之间的合作而建立。Oniro 利用由 OpenAtom 基金会运营的开源项目 OpenHarmony 的坚实基础,构建了一个以其在各种智能设备上的多功能性而闻名的操作系统平台。 据介绍,Oniro 优先考虑无缝互操作性、模块化和具有视觉吸引力的用户界面——面向消费电子、家用电器、工业物联网设备、智能家居和多媒体等各个行业的技术和应用提供基座。 他们通过一系列增强功能来实现这些目标,包...
相关文章
文章评论
共有0条评论来说两句吧...