巨人网络发布三大 Muli-Modal 模型
巨人网络 AI Lab 联合清华大学与西北工业大学推出三项研究成果:YingVideo-MV、YingMusic-SVC 与 YingMusic-Singer,并陆续开源。分别面向音乐驱动的视频生成、歌声转换与歌声合成任务,完善了真实业务场景中多项关键能力链路,为 “视频 × 音乐” 的多模态生成方向带来了系统性的技术进展。
其中,YingVideo-MV 模型实现仅凭“一段音乐加一张人物图像”即可生成音乐视频片段,它能够通过对音乐的节奏、情绪和内容结构进行多模态分析,确保镜头运动与音乐高度同步,并具备推、拉、摇、移等镜头语言,同时利用长时序一致性机制有效缓解长视频中常见的人物“畸变”和“跳帧”现象。
在音频生成方面,YingMusic-SVC 主打“真实歌曲可用”的零样本歌声转换能力,通过针对真实音乐场景的优化,有效抑制了伴奏、和声和混响的干扰,显著降低了破音与高音失真风险,为高质量的音乐再创作提供了稳定的技术支撑。
而 YingMusic-Singer 歌声合成模型则支持在给定旋律下输入任意歌词,即可生成发音清晰、旋律稳定的自然歌声,其主要特点在于能够灵活适应不同长度的歌词,并支持零样本音色克隆,大幅提升了 AI 演唱在创作中的灵活度与实用性,有效降低了音乐创作的门槛。
