DatologyAI 发布合成数据框架 BeyondWeb
DatologyAI 发布了 BeyondWeb,一个专为大规模语言模型(LLM)预训练设计的合成数据生成框架,旨在突破当前面临的数据瓶颈问题。
该框架采用“目标导向的文档重写”策略,对现有高质量网络数据进行改写,而非从头生成,从而在保证数据多样性和信息密度的同时,避免了低质量内容的引入。
据介绍,BeyondWeb 通过高质量、信息密集的合成数据,显著提升了模型性能,即使在原始网络数据有限的情况下,也能实现超越传统数据规模扩展的效果。在14项基准测试中,使用 BeyondWeb 生成的合成数据训练的 3B 参数模型,其性能超过了使用 Cosmopedia 数据训练的 8B 参数模型,同时训练速度提升了最高达 7.7 倍。
论文地址:https://arxiv.org/pdf/2508.10975

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Anthropic 推出 Usage and Cost API
Anthropic 近期推出了 Usage and Cost API,作为其 Admin API 的一部分,旨在帮助开发者和组织以编程方式实时监控和追踪 Claude 模型的使用情况和成本。 https://docs.anthropic.com/en/api/admin-api/usage-cost/get-messages-usage-report 该 API 允许用户通过请求获取详细的用量报告。报告支持多种精细化的筛选和分组条件,包括按 API 密钥 ID、工作区 ID、模型(例如 claude-sonnet-4-20250514)、服务等级(standard,batch,priority)以及上下文窗口大小(0-200k,200k-1M)进行查询。报告的时间粒度可以设置为分钟(1m)、小时(1h)或天(1d)。 为了方便开发者快速上手,Anthropic 在 GitHub 的 anthropic-cookbook 项目中提供了一个名为 usage_cost_api.ipynb 的 Jupyter Notebook 示例教程。 https://github.com/anthropi...
- 下一篇
钉钉重注 AI:成立行业专属模型团队,向 CTO 汇报
《智能涌现》独家获悉,钉钉近期成立了一个新业务线——行业专属模型,并作为独立团队存在,向钉钉CTO朱鸿汇报。这也是钉钉创始人无招回归后,钉钉在AI战略推进中的重要动作。 “团队成立后,目前钉钉已经与多家行业客户接触,目前已有几个行业/企业专属模型在推进中。” 自4月重返钉钉后,无招将产品体验和AI创新作为首要优先级。从4月开始,钉钉就经历了一场整改——覆盖范围很广,从产品设计、排查,到整改,无招都在一线深度参与。 从ChatGPT爆火后,钉钉已经完成了大模型基础能力的接入。2023年8月,钉钉就已经将智能化底座(AI PaaS)开放给生态伙伴和客户,鼓励合作伙伴利用大模型重新打造产品;再到2024年1月发布的AI助理,具备感知、记忆、规划和行动能力,能够跨应用程序执行任务。 根据钉钉此前披露的数字,钉钉目前企业组织数超过2500万,其中有超220万家企业在钉钉使用AI,覆盖制造、医疗、金融、零售等20个一级行业。 成立行业专属模型团队,是大模型在技术、产品化之后,继续在企业侧落地的体现。 企业AI落地的挑战并不小。一方面,大多数企业、尤其是中小企业虽然对AI有强烈需求,但普遍缺乏专业的...
相关文章
文章评论
共有0条评论来说两句吧...