您现在的位置是:首页 > 文章详情

腾讯混元开源语音数字人模型 HunyuanVideo-Avatar

日期:2025-05-28点击:46

腾讯混元宣布开源语音数字人模型HunyuanVideo-Avatar,由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室MuseV技术联合研发,支持头肩、半身与全身景别,以及多风格、多物种与双人场景,面向视频创作者提供高一致性、高动态性的视频生成能力。

用户可上传人物图像与音频,HunyuanVideo-Avatar模型会自动理解图片与音频,比如人物所在环境、音频所蕴含的情感等,让图中人物自然地说话或唱歌,生成包含自然表情、唇形同步及全身动作的视频。

HunyuanVideo-Avatar适用于短视频创作、电商与广告等多种应用场景,可以生成人物在不同场景下的说话、对话、表演等片段,快速制作产品介绍视频或多人互动广告,降低制作成本。目前,该技术已应用于腾讯音乐听歌陪伴、长音频播客以及唱歌MV等多场景。

除驱动人物图像外,HunyuanVideo-Avatar 还能在此基础上保证视频中主体一致性以及视频的整体动态性。用户可以上传复杂人物图像并上传匹配音频。

公告称,在主体一致性、音画同步方面,HunyuanVideo-Avatar效果超越开闭源方案,处在业内顶尖水平;在画面动态、肢体自然度方面,效果超越开源方案,和其他闭源方案处在同一水平。

相比传统工具仅限于头部驱动,HunyuanVideo-Avatar 还支持半身或全身场景,显著提升视频的真实感和表现力。同时,HunyuanVideo-Avatar 支持多风格、多物种与多人场景,包括赛博朋克、2D动漫、中国水墨画,以及机器人、动物等。例如,创作者可上传卡通角色或虚拟形象,生成风格化的动态视频,满足动漫、游戏等领域的创作需求。

体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

原文链接:https://www.oschina.net/news/352279
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章