MiniMax 发布语音模型 MiniMax Speech 02
MiniMax 现已推出基于 AR Transformer 模型的高质量 TTS 系统 ——MiniMax Speech 02。
MiniMax Speech 02 具有足够强的泛化能力,能够轻松驾驭 32 语种、不同口音、不同情绪的人声。该模型系统的核心创新之处在于其内在的 Zero-Shot 能力,其命为 Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder。
在提供更优异听感同时,MiniMax Speech 02 做到了价格更低,分别是 ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一。
在国际权威的 Artificial Analysis 上,MiniMax Speech 02 也通过全球用户测评,位列全球第一。
体验 MiniMax Speech
更多技术细节、实验对比数据、以及开源的多语言测试集,阅读技术报告



