Meta 开源新的“多标记预测”语言模型
Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测(multi-token prediction)实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索,该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。
“大型语言模型(例如 GPT 和 Llama)都是通过下一个标记预测损失进行训练。在这项工作中,我们认为训练语言模型同时预测多个未来标记会带来更高的样本效率......我们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题,在 MBPP 上多解决了 17% 的问题。另外一个好处是,即使批量规模很大,使用 4-token 预测训练的模型的推理速度也能提高 3 倍。”
Meta 此次共发布了 4 个经过代码训练的 7B 参数模型。其中有两个模型接受了 2000 亿个 token 的代码样本的训练,而另外两个模型则分别接受了 1 万亿个 token。在模型附带的一篇论文中,Meta 透还露了其正在开发但尚未发布的第五个 LLM,该模型拥有 130 亿个参数。
目前尚不清楚为什么这种方法产生的代码质量比传统的 LLM 设计更高。Meta 的研究人员在论文中指出,原因可能与语言模型的构建方式有关。
开发人员通常使用一种称为 Teacher-forcing 的技术来训练 LLM。包括给模型分配任务,例如生成一段代码,然后在模型出错时给它提供正确答案。这种方法有助于简化开发工作流程,但会限制所训练 LLM 的准确性。
Meta 研究人员认为,一次生成四个 token 的输出有可能减轻 Teacher-forcing 方法的局限性。“我们认为,'Teacher-forcing'鼓励模型专注于在短期内进行良好的预测,而忽略了生成序列整体结构中的长期依赖性。”
科技媒体 VentureBeat 认为,这一突破的影响可能十分深远。随着 AI 模型的规模和复杂性不断膨胀,它们对计算能力的贪婪需求引发了人们对成本和环境影响的担忧。Meta 的多标记预测方法或许能遏制这一趋势,使先进的 AI 更易于使用,并具有可持续性。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache HTTP Server 源代码泄露漏洞
漏洞描述 Apache HTTP Server 是美国阿帕奇(Apache)基金会的一款开源网页服务器,ap_set_content_type 函数用于设置请求的content-type。 Apache HTTP Server 的 2.4.60 版本中 ap_set_content_type 函数未正确校验content-type的来源,在某些间接请求文件的情况下,AddType及类似配置会导致本地脚本文件的内容泄露,攻击者可能利用该漏洞获取php等脚本语言源代码。 修复版本通过替换函数 ap_set_content_type 为 ap_set_content_type_ex,并增加额外的参数,确保content-type被正确地识别和处理,从而避免PHP脚本等内容未经解析直接输出。 漏洞名称 Apache HTTP Server 源代码泄露漏洞 漏洞类型 未授权敏感信息泄露 发现时间 2024-07-04 漏洞影响广度 - MPS编号 MPS-9gev-d08l CVE编号 CVE-2024-39884 CNVD编号 - 影响范围 http_server@[2.4.60, 2.4.6...
- 下一篇
MySQL 9.0“创新版”已支持向量,为何甲骨文却“偷偷摸摸”地宣布?
MySQL 9.0.0 Innovation(俗称“创新版”)已于近日发布。 下载地址:https://dev.mysql.com/downloads/mysql/ 从 MySQL 8.1 开始,官方启用了新的版本模型:MySQL 创新版 (Innovation) 和长期支持版 (LTS)。 根据介绍,两者的质量都已达到可用于生产环境级别。区别在于: 如果希望尝试最新的功能和改进,并喜欢与最新技术保持同步,那么 MySQL 创新版本可能最适合您。 该版本非常适合在快节奏的开发环境中工作的开发人员和 DBA,其中有高水平的自动化测试和现代的持续集成技术,可以实现更快的升级周期。 如果您的环境需要继续保持已经固定的行为,那么 LTS 版本就是您的不二之选。这些版本仅包含必要的修复,因此可以减少数据库软件行为变更带来的风险。 viahttps://my.oschina.net/actiontechoss/blog/10090445 对于 MySQL 9.0“创新版”,最值得关注的新特性莫过于支持向量数据类型,字段类型名称为VECTOR,可以使 to_vector/string_to_vect...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6