DatologyAI 发布合成数据框架 BeyondWeb-低调大师

DatologyAI 发布合成数据框架 BeyondWeb

2025-08-20 196

DatologyAI 发布了 BeyondWeb，一个专为大规模语言模型（LLM）预训练设计的合成数据生成框架，旨在突破当前面临的数据瓶颈问题。

该框架采用“目标导向的文档重写”策略，对现有高质量网络数据进行改写，而非从头生成，从而在保证数据多样性和信息密度的同时，避免了低质量内容的引入。

据介绍，BeyondWeb 通过高质量、信息密集的合成数据，显著提升了模型性能，即使在原始网络数据有限的情况下，也能实现超越传统数据规模扩展的效果。在14项基准测试中，使用 BeyondWeb 生成的合成数据训练的 3B 参数模型，其性能超过了使用 Cosmopedia 数据训练的 8B 参数模型，同时训练速度提升了最高达 7.7 倍。

论文地址：https://arxiv.org/pdf/2508.10975

微信关注我们

原文链接：https://www.oschina.net/news/367463

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Anthropic 推出 Usage and Cost API

Anthropic 近期推出了 Usage and Cost API，作为其 Admin API 的一部分，旨在帮助开发者和组织以编程方式实时监控和追踪 Claude 模型的使用情况和成本。 https://docs.anthropic.com/en/api/admin-api/usage-cost/get-messages-usage-report 该 API 允许用户通过请求获取详细的用量报告。报告支持多种精细化的筛选和分组条件，包括按 API 密钥 ID、工作区 ID、模型（例如 claude-sonnet-4-20250514）、服务等级（standard,batch,priority）以及上下文窗口大小（0-200k,200k-1M）进行查询。报告的时间粒度可以设置为分钟（1m）、小时（1h）或天（1d）。为了方便开发者快速上手，Anthropic 在 GitHub 的 anthropic-cookbook 项目中提供了一个名为 usage_cost_api.ipynb 的 Jupyter Notebook 示例教程。 https://github.com/anthropi...

2025-08-20

196

《智能涌现》独家获悉，钉钉近期成立了一个新业务线——行业专属模型，并作为独立团队存在，向钉钉CTO朱鸿汇报。这也是钉钉创始人无招回归后，钉钉在AI战略推进中的重要动作。 “团队成立后，目前钉钉已经与多家行业客户接触，目前已有几个行业/企业专属模型在推进中。” 自4月重返钉钉后，无招将产品体验和AI创新作为首要优先级。从4月开始，钉钉就经历了一场整改——覆盖范围很广，从产品设计、排查，到整改，无招都在一线深度参与。从ChatGPT爆火后，钉钉已经完成了大模型基础能力的接入。2023年8月，钉钉就已经将智能化底座(AI PaaS)开放给生态伙伴和客户，鼓励合作伙伴利用大模型重新打造产品；再到2024年1月发布的AI助理，具备感知、记忆、规划和行动能力，能够跨应用程序执行任务。根据钉钉此前披露的数字，钉钉目前企业组织数超过2500万，其中有超220万家企业在钉钉使用AI，覆盖制造、医疗、金融、零售等20个一级行业。成立行业专属模型团队，是大模型在技术、产品化之后，继续在企业侧落地的体现。企业AI落地的挑战并不小。一方面，大多数企业、尤其是中小企业虽然对AI有强烈需求，但普遍缺乏专业的...

2025-08-20

244

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。