您现在的位置是:首页 > 文章详情

Soul App 开源播客语音合成模型 SoulX-Podcast

日期:2025-10-29点击:5

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

SoulX-Podcast表现

 

SoulX-Podcast亮点:流畅自然多轮对话、多方言、超长播客生成。

  • 零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。

无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

  • 多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是,SoulX-Podcast实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

  • 超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

 SoulX-Podcast模型架构如下:

SoulX-Podcast开源地址

  • Demo Page: https://soul-ailab.github.io/soulx-podcast

  • Technical Report: https://arxiv.org/pdf/2510.23541

  • Source Code: https://github.com/Soul-AILab/SoulX-Podcast

  • HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

原文链接:https://www.oschina.net/news/380252
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章