MiniMax 发布最新语音模型 MiniMax Speech 2.6
MiniMax 发布了最新的语音模型 MiniMax Speech 2.6,全面升级突破Voice Agent场景,超低延时,专业格式无障碍,更高自然度。
1. 超低延时,更灵敏:整体交互更顺畅
对音频生成链路进行了全面优化,使端到端延迟低于250毫秒,达到了行业顶尖水平。在实时对话等对响应速度有严苛要求的场景中,音频生成不再是瓶颈,确保整体交互更流畅。
2. 专业格式无障碍,更聪明:信息传递更流畅
Speech 2.6 现已支持多种语言的网址、邮箱、电话号码、日期及金额等非标准文本格式的直接转换。无论您是结合大语言模型使用,还是需要在业务中处理动态变化的实体信息,都无需再进行繁琐的文本预处理。输入即正确,实现信息传递更流畅。
例如,在传统TTS中需要正确朗读下面一段话,则需要做一系列转换:
-
+1 415 415 9921 → “plus one, four one five, four one five, nine nine two one ”
-
$1,234.56 → “one thousand two hundred thirty-four dollars and fifty-six cents”
-
192.168.1.1 → “one nine two dot one six eight dot one dot one”
-
2032-5-6 → “May sixth, twenty thirty-two”
-
support-vip@technet.com → “support dash vip at technet dot com”
语段原文:Hello Oliver Smith, I'm your intelligent virtual assistant Max! Thank you for your call. I've found your file. The outstanding balance for the phone number +1 415 415 9921 is $1,234.56. The associated IP addresses is 192.168.1.1. Your next payment is due in 2032-5-6. If you have any questions, please contact support-vip@technet.com.
语段原文:您好Oliver Smith,我是您的智能虚拟助手Max!感谢您的来电,我已找到您的档案。电话号码14154159921 的未付清余额为 ¥1,234.56。关联的 IP 地址是 192.168.1.1。您的下一个付款到期日是 2032/5/6。如有任何疑问,请联系 support-vip@technet.com。
3. 更高自然度与Fluent LoRA:声音表达更流利
进一步提升了音韵自然度之外,Speech 2.6 还提供了Fluent LoRA。
此前Speech 2.5就提供了便捷、高还原度的音色复刻功能,用户能够保留原始音色的口音、口癖等特色。这一能力满足了实际使用场景中多样化的语音需求。
现在,音色复刻时,您无需再为不完美的原始素材而烦恼。即使是带有口音或不流利的非母语录音,也可通过 Fluent LoRA,在完美复刻音色的同时,生成符合目标文本的流利、自然的语音,让您的声音表达更流利。
除了视频里展示的英文场景外,模型支持的40+语种都可以实现在音色复刻时一键变流利,我们以日语场景为例:
Speech 2.6 已经全面上线:
MiniMax开放平台:Minimaxi.com/platform_overview
MiniMax Audio:Minimaxi.com/audio
