腾讯发布全新视频生成模型 HunyuanVideo1.5
腾讯混元大模型团队正式发布了其最新视频生成模型 HunyuanVideo1.5,标志着视频生成技术的又一重要突破。这款基于 Diffusion Transformer(DiT)架构的轻量级模型,参数量达8.3B,能够生成5至10秒的高清晰度视频,已在腾讯的「元宝」平台上线,向用户开放体验。 HunyuanVideo1.5支持多种生成方式,用户可以通过输入文字描述(Prompt)实现 “文生视频”,也可以通过上传图片与文字结合,轻松将静态图像转化为动态视频。这一创新技术不仅满足了中英文输入的需求,还展示了图像与视频的一致性,确保生成视频在色调、光影、场景、主体及细节等方面与原图高度匹配。 在具体应用中,用户可以根据提示词生成复杂的场景。例如,一则提示词描述了一只手提箱里如何生长出迷你英式花园,模型能够精准呈现这一过程,表现出高水平的指令理解与遵循能力。此外,HunyuanVideo1.5支持写实、动画等多种风格,能够在视频中生成中英文文字,极大地丰富了内容创作的可能性。 技术上,HunyuanVideo1.5采用了创新的 SSTA 稀疏注意力机制,显著提升了推理效率,并结合多阶段渐进式训...
