您现在的位置是:首页 > 文章详情

DatologyAI 发布合成数据框架 BeyondWeb

日期:2025-08-20点击:22

DatologyAI 发布了 BeyondWeb,一个专为大规模语言模型(LLM)预训练设计的合成数据生成框架,旨在突破当前面临的数据瓶颈问题。

该框架采用“目标导向的文档重写”策略,对现有高质量网络数据进行改写,而非从头生成,从而在保证数据多样性和信息密度的同时,避免了低质量内容的引入。

据介绍,BeyondWeb 通过高质量、信息密集的合成数据,显著提升了模型性能,即使在原始网络数据有限的情况下,也能实现超越传统数据规模扩展的效果。在14项基准测试中,使用 BeyondWeb 生成的合成数据训练的 3B 参数模型,其性能超过了使用 Cosmopedia 数据训练的 8B 参数模型,同时训练速度提升了最高达 7.7 倍。

论文地址:https://arxiv.org/pdf/2508.10975

原文链接:https://www.oschina.net/news/367463
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章