Inworld 推出 TTS-1.5:低延迟,成本相较同类便宜 25 倍
Inworld AI 宣布推出 Inworld TTS-1.5,号称目前速度最快、质量最高的实时语音 AI 模型。 公告称,1.5 Max 的 P90 首声延迟低于 250 毫秒,1.5 Mini 低于 130 毫秒(相较上一代产品快 4 倍)。Max 型号现在能够提供以往只有在更高延迟下才能实现的音质,运行速度几乎与 Mini 型号一样快,同时还能呈现更丰富、更富有表现力的语音。 改进后的 TTS-1.5 表现力提升了 30%,词错误率降低 40%,同时减少了幻听、断音和语音失真等问题。最终生成的语音几乎与真人说话无异:情感细腻、语境感知准确且可靠。 并增强了多语言支持,语言支持现已扩展至 15 种语言。此外,它的成本比其他替代方案低 25 倍以上。1.5 Mini 版每分钟仅需 0.005 美元,1.5 Max 版每分钟仅需 0.01 美元。 Inworld TTS-1.5 Max 适用于大多数应用,而 TTS-1.5 Mini 则针对对延迟高度敏感的应用进行了优化。
