Meta AI 多语言阅读理解数据集 Belebele,涵盖 122 种语言变体
Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。
BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵盖了 29 种脚本和 27 个语系中不同类型的高、中、低资源语言。此外,还有 7 种语言包含在两种不同的脚本中,从而为印地语、乌尔都语、孟加拉语、尼泊尔语和僧伽罗语的罗马化变体制定了首个 NLP 基准。
该数据集可对单语和多语模型进行评估,但其并行性也可在一些跨语言环境中对跨语言文本表征进行评估。通过从相关质量保证数据集中收集训练集,可以对任务进行全面微调评估。每个问题都基于 Flores-200 数据集中的一段短文,并有四个多项选择答案。这些问题经过精心设计,以区分具有不同一般语言理解水平的模型。
- 每种语言有 900 道题
- 488 个不同段落,每个段落有 1-2 道相关问题。
- 每道题有 4 个选择答案,其中只有一个是正确的。
- 122 种语言/语言变体(包括英语)。
- 900 x 122 = 109,800 个问题。
研究人员利用这个数据集评估了多语言屏蔽语言模型(MLM)和大语言模型(LLM)的能力。结果表明,尽管以英语为中心的 LLM 有显著的跨语言迁移能力,但在平衡的多语言数据上经过预训练的更小的 MLM 仍然能理解更多的语言。且词汇量越大、越有意识地构建词汇,在低资源语言上的表现就越好。
更多详情可查看完整论文。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Crumb:无关键字、一切皆函数的编程语言
Crumb 是一门函数式编程语言,没有 “关键字”,一切皆函数 (0 keywords, everything is a function)。 其他特性包括提供垃圾回收 (GC)、动态类型、具有简洁的语法和详细的标准库。 示例代码 table = (map (range 10) {_ y -> <- (map (range 10) {item x -> <- (multiply (add x 1) (add y 1)) }) }) (loop 100 {i -> i = (add i 1) (if (is (remainder i 15) 0) { (print "fizzbuzz\n") } { (if (is (remainder i 3) 0) { (print "fizz\n") } { (if (is (remainder i 5) 0) { (print "buzz\n") } { (print i "\n") }) }) }) }) 实现斐波那契数列 // use a simple re...
- 下一篇
IJPay 2.9.8 版本发布,微信支付支持国密
IJPay 让支付触手可及,封装了微信支付、QQ 支付、支付宝支付、银联支付、京东支付、PayPal 支付等常用的支付方式以及各种常用的接口。不依赖任何第三方 mvc 框架,仅仅作为工具使用简单快速完成支付模块的开发,可轻松嵌入到任何系统里。 特别说明: 不依赖任何第三方 MVC 框架,仅仅作为工具使用简单快速完成支付模块的开发,可轻松嵌入到任何系统里。 微信支付支持多商户多应用,普通商户模式与服务商商模式当然也支持境外商户、同时支持 Api-v3 与 Api-v2 版本的接口。 支付宝支付支持多商户多应用,签名同时支持普通公钥方式与公钥证书方式 本期更新内容如下 1、修复已知问题#63#64#65 2、微信支付增加 PATCH 请求方式实现, 感谢 @YunGouOS贡献代码 3、微信支付支持 V3 电子发票 4、微信支付支持国家商用密码(即国密),详细介绍请参考微信官方文档-国家商户密码接入指南同时感谢@YunGouOS提供国密证书支持。5、其他小的更新等,如升级依赖...... 微信支付v3版本默认 SHA256-RSA2048 ,v3 接口中最后参数传入 AuthTypeEn...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8编译安装MySQL8.0.19
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker使用Oracle官方镜像安装(12C,18C,19C)