Meta AI 多语言阅读理解数据集 Belebele，涵盖 122 种语言变体-低调大师

Meta AI 多语言阅读理解数据集 Belebele，涵盖 122 种语言变体

2023-09-04 575

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集，名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。

BELEBELE 是首个跨语言并行数据集，可以直接比较所有语言的模型性能。该数据集涵盖了 29 种脚本和 27 个语系中不同类型的高、中、低资源语言。此外，还有 7 种语言包含在两种不同的脚本中，从而为印地语、乌尔都语、孟加拉语、尼泊尔语和僧伽罗语的罗马化变体制定了首个 NLP 基准。

该数据集可对单语和多语模型进行评估，但其并行性也可在一些跨语言环境中对跨语言文本表征进行评估。通过从相关质量保证数据集中收集训练集，可以对任务进行全面微调评估。每个问题都基于 Flores-200 数据集中的一段短文，并有四个多项选择答案。这些问题经过精心设计，以区分具有不同一般语言理解水平的模型。

每种语言有 900 道题
488 个不同段落，每个段落有 1-2 道相关问题。
每道题有 4 个选择答案，其中只有一个是正确的。
122 种语言/语言变体（包括英语）。
900 x 122 = 109,800 个问题。

研究人员利用这个数据集评估了多语言屏蔽语言模型（MLM）和大语言模型（LLM）的能力。结果表明，尽管以英语为中心的 LLM 有显著的跨语言迁移能力，但在平衡的多语言数据上经过预训练的更小的 MLM 仍然能理解更多的语言。且词汇量越大、越有意识地构建词汇，在低资源语言上的表现就越好。

更多详情可查看完整论文。

微信关注我们

原文链接：https://www.oschina.net/news/256830/meta-ai-belebele

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Crumb：无关键字、一切皆函数的编程语言

Crumb 是一门函数式编程语言，没有 “关键字”，一切皆函数 (0 keywords, everything is a function)。其他特性包括提供垃圾回收 (GC)、动态类型、具有简洁的语法和详细的标准库。示例代码 table = (map (range 10) {_ y -> <- (map (range 10) {item x -> <- (multiply (add x 1) (add y 1)) }) }) (loop 100 {i -> i = (add i 1) (if (is (remainder i 15) 0) { (print "fizzbuzz\n") } { (if (is (remainder i 3) 0) { (print "fizz\n") } { (if (is (remainder i 5) 0) { (print "buzz\n") } { (print i "\n") }) }) }) }) 实现斐波那契数列 // use a simple re...

2023-09-04

754

IJPay 让支付触手可及，封装了微信支付、QQ 支付、支付宝支付、银联支付、京东支付、PayPal 支付等常用的支付方式以及各种常用的接口。不依赖任何第三方 mvc 框架，仅仅作为工具使用简单快速完成支付模块的开发，可轻松嵌入到任何系统里。特别说明：不依赖任何第三方 MVC 框架，仅仅作为工具使用简单快速完成支付模块的开发，可轻松嵌入到任何系统里。微信支付支持多商户多应用，普通商户模式与服务商商模式当然也支持境外商户、同时支持 Api-v3 与 Api-v2 版本的接口。支付宝支付支持多商户多应用，签名同时支持普通公钥方式与公钥证书方式本期更新内容如下 1、修复已知问题#63#64#65 2、微信支付增加 PATCH 请求方式实现，感谢 @YunGouOS贡献代码 3、微信支付支持 V3 电子发票 4、微信支付支持国家商用密码（即国密），详细介绍请参考微信官方文档-国家商户密码接入指南同时感谢@YunGouOS提供国密证书支持。5、其他小的更新等，如升级依赖...... 微信支付v3版本默认 SHA256-RSA2048 ，v3 接口中最后参数传入 AuthTypeEn...

2023-09-04

840

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。