Mistral AI 发布 Voxtral Transcribe 2,支持中文实时转录
Mistral AI 宣布推出 Voxtral Transcribe 2 新一代语音转文本模型,具备一流的转录质量、人声分割功能和超低延迟。 根据介绍,该系列产品包括用于批量转录的 Voxtral Mini Transcribe V2,支持人声分割、上下文偏置和 13 种语言的单词级时间戳。以及用于实时应用的 Voxtral Realtime,采用 Apache 2.0 许可证开源,专为实时转录而打造,延迟可配置至 200 毫秒以下。 Voxtral Realtime 专为对延迟要求严格的应用场景而设计。与通过分段处理音频来适配离线模型的方案不同,Realtime 采用了一种全新的流式架构,实现音频到转写结果的即时转换。 Realtime 的延迟仅为 2.4 秒,非常适合字幕制作。在480毫秒延迟下,其词错误率仍控制在1-2%范围内,使语音助手能够实现接近离线的准确率。该模型原生支持多语言,在包括英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语在内的13种语言中均实现了出色的转录性能。其参数量仅为40亿,可在边缘...
