Meta 开发了实时翻译闽南语的 AI
目前大多数的人工智能翻译都集中在翻译书面语言上,因为这些语言具有丰富的数据集,对 AI 而言这也是训练机器学习系统理解和翻译的最简便的方法。然而,全球共有超过 7000 种不同的语言,其中更有超过 40% 的语言是没有标准书写系统的。
来自 Meta(前 Facebook) 的人工智能研究团队就专门针对这种场景开发了一个 AI 翻译系统,这是一个面向口头语言的实时翻译系统,并以闽南语与英文互译为首要目标。
闽南语主要在我国福建和台湾广泛使用,其次在新加坡、印尼、马来西亚等东南亚国家的使用群体也不小。根据 Meta 的统计,目前约有 4600 万人说闽南语。闽南语本身没有标准的书写系统,主要就是通过口语交流。相比传统的 AI 翻译项目,Meta 探索的这个项目显得十分新颖。
这项工作是 Meta AI 的通用语音翻译器项目的一部分,这个机器语言模型的最终目标是允许实时翻译众多不同的口语和书面语言,使任何人都能轻松沟通。
建构新模型的挑战在于,大多数实时翻译技术主要使用书面语言作为语音编码的数据集和注释基础(例如,英语、西班牙语、汉语普通话等有大量使用者的主流语言),因为有更多数据支持,使得挖掘数据和构建大型模型相对简单。
但像闽南语这样的方言,一是没有标准的书写系统,二是使用群体相比主流语言较小。这就使得构建一个庞大的数据模型变得非常困难。研究人员就需要找到一种中间语言来连接两者,在这个过程中他们使用的就是汉语普通话,两者还是有很多相似之处的,能够帮助建立初始模型。
整个翻译过程简化后就是「英语 ⇔ 普通话 ⇔ 闽南语」这样的双向翻译过程,这其中有人类的注释,也有自动翻译的结果,然后研究人员会将配对的句子添加到用于训练人工智能模型的数据中。在这个过程中,研究人员还积极与会说闽南语的人合作,以确保人工智能翻译模型的准确性。
该模型目前仍在开发中,并且只适用于那类具有中间语言可以桥接两个不同语言的语言,如果两个语言之类没有密切相似的可桥接语言的话,将无法使用这个新模型,但该模型仍然为通用翻译开辟了更多的新语言。
Meta 未来将开源这个闽南语的模型、代码、基准数据和论文等资料,供其他人构建自己的 AI 实时翻译工具。Meta AI 的工程师除了希望这个 AI 翻译系统可以帮助用户跨越语言障碍更自如地交谈,还希望可以帮助语言学家保护无文字语言,因为一些没有标准化书面系统的语言正面临着消亡的风险。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源编辑器 VS Code 被倒卖,微软和谷歌看了都要沉默
上面这张图最近很火,刚开始看到以为是网友的恶搞,直至有人提供了出处,才发现原来这是真实存在的——微软开发的免费代码编辑器 VS Code 被封装成收费软件而出售。 从安装界面的文案来看,这款"Vscode"的价格设置策略可谓深谙消费者心理。先是写出“原价298”,然后再用醒目的颜色高亮突显“限时活动价69.7”。到这还没结束,最后弹窗提醒用户获得了一张“20元优惠券”,可用于超低价购买正版 Vscode。 不过最骚的操作当属这个——在安装界面中,「官方正版授权」文案下方写的是谷歌官网:https://www.google.com。 虽然 VS Code 是开源编辑器,其代码采用了 MIT License 托管在 GitHub,但 VS Code 的可执行文件却使用了专门的许可证(可免费使用但不开源)。 因此,如果这个李逵"Vscode"是通过源代码编译而来,然后再进行销售,这是符合 MIT 条款的——"MIT License allows you to "sell copies of the Software" with or without modification"。但如果是直接在...
- 下一篇
Glibc 获得 AVX-512 优化,部分函数周期减少约 30%
GNU C 库“glibc”获得另一轮 AVX-512 优化工作,使用英特尔的 AVX-512 处理器或 AMD Zen 4 的用户可从中受益。 AVX-512 是一种 SIMD 指令,用于在执行特定任务时提高 CPU 的性能。英特尔工程师 Sunil K Pandey 为 Glibc 开发了增强型矢量扩展 EVEX512 版本的 memchr、rawmemchr 和 wmemchr 函数,memchr、rawmemchr 和 wmemchr 函数变体用于在内存块中定位字符。 与标准 EVEX 实现相比,这些字符串函数的 EVEX512 版本可减少多达 30% 的函数周期,使用 512 位向量的好处因字符串长度和其他因素而异。 与此同时,今天在 Glibc git 中,Noah Goldstein 对各种 libc 函数的现有 EVEX 实现进行了许多优化。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作