昆仑万维上线 AI 音乐模型 Mureka V7.5
昆仑万维集团宣布正式上线 Mureka V7.5 模型。在为期五天的 SkyWork AI 技术发布周内,昆仑万维已推出了SkyReels-A3、Matrix-Game2.0、Matrix-3D、Skywork UniPic2.0和Skywork Deep Research Agent等模型。
根据介绍,Mureka V7.5的发布是此次技术发布周的压轴之作,它在中文歌曲创作方面展现了卓越的能力。该模型不仅在音色和演奏技法上实现了大幅提升,还在咬字和情感表现上取得了显著进步。
Mureka V7.5凭借对中文曲风和元素的深刻理解,能够精准地传达中文音乐的艺术神韵和情感色彩。它涵盖了从传统民歌、戏曲到经典华语流行金曲以及当代民谣音乐等多种风格,展现了中文音乐的多样性与文化特性。
为了进一步提升人声表现的真实性与情感深度,Mureka V7.5优化了自动语音识别(ASR)技术。这项技术深入到演唱的微观层面,能够精准识别唱词,并分析真实演唱中的气息运用、情感起伏和唱法细节。通过智能划分乐句、确定自然的换气与停顿位置,Mureka V7.5显著提升了生成人声的段落清晰度与结构真实感。这些细节的捕捉反馈给生成模型后,极大地增强了人声的自然度、呼吸感以及情感表达的真实性,有效削弱了机械感,使AI演绎的歌曲在流畅性上更贴近真人演唱,尤其在处理中文歌曲特有的韵律和气息要求时表现出色。
与此同时,昆仑万维语音团队还推出了MoE-TTS——首个基于Mixture of Experts(MOE)的角色描述语音合成框架。作为一项面向开放描述场景的研究性工作,MoE-TTS能够让用户通过自然语言描述精准控制声音特征与风格。即使仅使用开源数据,该技术在角色贴合度上也能对标甚至超越闭源商业产品。
MoE-TTS的推出有望解决描述性语音合成领域长期存在的难题,例如在面对比喻、类比等复杂修辞时,生成的语音往往偏离用户预期。该框架结合了预训练大语言模型(LLM)的文本能力和语音专家模块,通过模态路由确保各模态独立优化、互不干扰,实现了“知识零损失”的泛化理解能力。在涵盖域内与域外描述的双测试集上,MoE-TTS在风格表现力贴合度和整体贴合度等声学控制上表现出色,展现了其在复杂描述匹配度上的优势。
MoE-TTS的发布不仅为学术界提供了可复现的开放描述TTS解决方案,也证明了模态解耦加知识冻结迁移的技术路径在语音合成中的巨大潜力。这一突破有望推动行业从“封闭标签式控制”走向“自然语言自由控制”的新范式,加速数字人、虚拟助手和沉浸式内容创作的体验升级。
目前,MoE-TTS仍在迭代中,后续计划将其集成至Mureka-Speech平台,作为角色配音的基座模型,为全球开发者和创作者提供开放、高效、可定制的描述性语音合成能力。
