苹果发布开源视频生成模型 STARFlow-V
苹果在 GitHub 发布了名为 STARFlow-V 的开源项目,一款 70 亿参数的视频生成模型。
据介绍,STARFlow-V 基于 Normalizing Flow 架构,在时空潜在空间中运行,采用全局-局部架构,旨在实现高效、高保真度的视频生成。它支持高达 640x480(480p)的分辨率,81 帧(16 FPS,约 5 秒),并证明 Normalizing Flow 模型在视频生成方面可以与视频扩散模型相媲美。
STARFlow-V 是首个基于归一化流的因果视频生成器,支持端到端训练、原生似然估计,并能原生支持文本到视频、图像到视频以及视频到视频的生成任务,无需更改架构或重新训练。
项目地址:https://starflow-v.github.io/

