Meta AI 推出“全语种”语音识别系统,支持 1600+ 语言

Meta的基础人工智能研究(FAIR)团队近日开源了 Omnilingual ASR,一款创新的自动语音识别系统,能够转录超过1600种口语语言。模型基于PyTorch的fairseq2框架构建,提供了从适用于低功耗设备的3亿参数版本到追求“顶级准确度”的70亿参数版本。

此举旨在弥合现有AI工具在语言覆盖上的巨大差距,正式迈向“通用转录系统”的目标。Meta指出,在其支持的1600种语言中,有500种语言此前从未被任何人工智能系统覆盖。

  • 在测试的1600种语言中,系统对78%的语言实现了低于10个字符的错误率。
  • 对于拥有至少10小时训练音频的“资源丰富”语言,这一准确率标准达到了95%的覆盖。
  • 即使是音频时长不足10小时的“低资源”语言,也有36%的语言错误率低于10个字符的阈值,为这些群体带来了实用的语音识别功能。

Omnilingual ASR的一个关键创新是其“自带语言”选项,该功能借鉴大型语言模型的情境学习技术。用户只需提供少量的音频和文本配对样本,系统即可直接从这些样本中学习新语言,无需重新训练或大量的计算资源。

Meta表示,理论上,这一方法有望将Omnilingual ASR的覆盖范围扩展到超过5400种语言,远远超越了当前的行业标准。

此外,Meta同步发布了全语言自动语音识别语料库(Omnilingual ASR Corpus),这是一个包含350种代表性不足语言的大型转录语音数据集。该数据以知识共享署名许可协议(CC-BY)发布,旨在帮助全球开发者调整语音识别模型,以满足特定的本地化需求。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/382852

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。