字节跳动推出 QuaDMix:大型语言模型预训练数据质量与多样性的统一框架
字节跳动近日宣布推出其全新的数据选择框架 QuaDMix,旨在提升大型语言模型(LLM)预训练的效率和泛化能力。众所周知,模型的训练效果受基础数据集的质量和多样性影响很大。然而,传统的数据筛选方法往往将质量和多样性视为两个独立的目标,先进行质量过滤,再进行领域平衡。
这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差,而多样化的数据集可能会降低质量。因此,在固定的训练预算下,如何同时优化这两个维度以最大化模型性能,成为了一个亟待解决的难题。
QuaDMix 框架的主要运作分为三个阶段:特征提取、质量聚合和质量 - 多样性感知采样。在初始阶段,每个文档都会被标注领域标签和多项质量评分。通过归一化和合并这些评分,生成一个综合质量分数。接着,系统通过基于 sigmoid 的函数采样文档,优先考虑高质量样本,并通过参数化控制确保领域平衡。
为了优化模型,QuaDMix 在不同参数设置下训练了数千个代理模型。通过这些代理实验训练的回归模型可以预测性能结果,从而识别出最佳采样配置。这种方法使得在高维参数空间中进行结构化探索成为可能,从而更好地将数据选择与下游任务对接。
实验结果显示,QuaDMix 在 RefinedWeb 数据集上进行的验证实验中,与多种基线模型相比,平均得分达到了39.5%。这些基线模型包括随机选择、Fineweb-edu、AskLLM、DCLM 等。实验结果表明,联合优化策略在整体表现上始终优于单独关注质量或多样性的方法。此外,经过优化的数据混合更能提升特定下游任务的性能。
QuaDMix 为大型语言模型的预训练数据选择提供了一个系统化的解决方案,解决了长期以来同时优化数据质量与多样性的挑战。通过结合质量聚合和领域感知采样,QuaDMix 建立了一种可扩展的方法论,提升了 LLM 预训练的效率。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
谷歌认为自己是唯一能运营 Chrome 的公司,如若转手,将“万劫不复”
在美国司法部对谷歌在搜索引擎市场的非法垄断案中,谷歌 Chrome 浏览器总经理 Parisa Tabriz 表示,将谷歌与 Chrome “剥离”是不可能的,并补充说,她认为“Chrome 不可能在其他地方被复制”。 Tabriz 强调造就 Chrome 浏览器今日成功的基石,源于 17 年来与谷歌其他部门的紧密协作。 Tabriz 表示,谷歌 Chrome 是 Chrome 团队、谷歌以及向公司的开源 Chromium 项目提交技术贡献的公司“17 年合作”的结果,该项目的开源代码也被用于其他几个谷歌项目,如 Android 操作系统。“谷歌在 Chromium 上投入了数亿美元”,Tabri说到,并表示其他公司“目前并没有以任何有意义的方式做出贡献。” 专家 James Mickens 认为,将 Chrome 从谷歌内部基础设施进行剥离在技术上是“feasible”(可行的),并不会破坏其功能。他指出,谷歌仍有动力继续为开源项目 Chromium 贡献技术。 然而,Tabriz 反驳称,谷歌自 2015 年以来贡献了 Chromium 超过 90% 的代码,其他公司几乎没有实质性...
- 下一篇
马斯克旗下 xAI 拟融资 200 亿美元
彭博社援引知情人士透露,马斯克旗下 xAI 目前正与投资者洽谈,计划筹集大约 200 亿美元资金,用于其新合并的人工智能初创公司和社交媒体业务。 数据提供商 PitchBook 的数据显示,如果成功,这笔交易将成为历史上第二大创业公司融资,仅次于今年早些时候 OpenAI 的 400 亿美元融资。据知情人士透露,凭借此轮洽谈中的融资,xAI 的估值超过 1200 亿美元。 值得一提的是,该轮融资可能有助于偿还马斯克在将 X 前身 ——Twitter 私有化后所承担的一部分债务。知情人士透露,上述债务一直对 X 构成财务压力。此前彭博社报道指出,仅在今年 3 月,X 就支付了约 2 亿美元的债务服务费用,截止 2024 年底,其年度利息支出将超过 13 亿美元。 据了解,尽管谈判仍处于初期阶段,但 xAI 目标是未来几个月内筹集资金。知情人士表示,融资规模可能会超过最初的 200 亿美元,具体金额和条款尚未确定。 报道指出,这一大规模融资凸显了投资者对人工智能公司日益增长的兴趣,同时也显示了马斯克作为商业巨头和政治影响力人物的地位。尽管特斯拉的市值有所下滑,但马斯克的其他企业仍在蓬勃发...
相关文章
文章评论
共有0条评论来说两句吧...