Meta 开源大模型:支持 4000+ 语言识别,1100+ 种语音文本转换
Meta AI 团队宣布开源了一个名为 Massively Multilingual Speech (MMS) 的 AI 模型,声称可以识别 4000 多种语言,比目前已知技术要多 40 倍。以及扩展了文本转语音和语音转文本技术的涵盖范围,从大约 100 种语言到 1100 多种。 根据介绍,现有的最大的语音数据集最多只涵盖 100 种语言;因此为了收集数千种语言的音频数据,Meta 使用了一种非常规的方法 —— 宗教文本录音。“我们转向宗教文本(例如《圣经》),这些文本已被翻译成许多不同的语言,并且其翻译已被广泛研究用于基于文本的语言翻译研究。这些译本都有公开录音,记录了人们采用不同语言进行阅读的情景。” 作为 MMS 项目的一部分,Meta 公司的研究人员创建了一个超过 1100 种语言的 New Testament 阅读数据集,每种语言平均提供 32 小时的数据。结合其他各种基督教宗教读物的无标签录音,他们还将模型的可用语言增加到了 4000 多种。 但 Meta 方面声明,此举不会导致模型的偏向性。“虽然这些数据来自特定领域,并且通常由男性阅读;但我们的分析表明,我们的模型在男...
