苹果公开 AI 模型训练策略:从大规模网络抓取到秘密授权交易和合成内容
近日,苹果发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何对模型进行微调。报告还探讨了用于确保模型技术改进的方法,以提高模型效率,同时避免隐私泄露。
报告介绍了一款约30亿参数的端侧模型,该模型通过KV 缓存共享和 2-bit量化感知训练等架构创新,针对苹果芯片进行了优化。
另一款是基于新颖的“并行轨道混合专家”(Parallel-Track Mixture-of-Experts, PT-MoE)Transformer 架构的可扩展服务器模型,该模型在苹果的私有云计算平台(Private Cloud Compute)上运行,结合了轨道并行、稀疏计算和交错的全局-局部注意力机制。
两款模型均在通过负责任的网络爬取、授权语料库和高质量合成数据构建的大规模多语言、多模态数据集上进行训练,并利用一个新的异步平台进行监督微调和强化学习。
报告指出,在公开基准测试和人类评估中,这两款模型都达到或超过了同等规模的开源基线模型。此外,苹果还推出了一个以 Swift 为中心的全新基础模型框架,支持引导式生成、约束性工具调用和 LoRA 适配器微调。
凭借新模型,苹果显著提升了多语言能力。为了扩展语言支持,苹果将训练过程中非英语数据的比例从 8% 提升至 30%,涵盖真实内容和 AI 生成的内容,从而提升模型的理解能力,并支持更广泛的语言。这将使写作工具等功能更好地发挥作用。
在训练新的 AI 系统时,苹果大量依赖其自主研发的网络爬虫 Applebot 收集的网络数据,这些数据也已在之前的模型中使用。有趣的是,由于苹果尊重隐私,如果网站不想被爬取,就不会使用其内容。
该公司使用多种技术来训练其模型,主要使用公共网络数据作为训练材料。苹果倾向于过滤不相关的内容,并专注于有用且切题的数据集。同样,这家科技巨头也依赖出版商的授权内容,尽管它确实透露了其所依赖的媒体公司的名称。该公司还使用较小的模型来收集合成数据,尤其是在涉及图像语言任务、代码或指令执行时,以便更好地进行微调。
这种多方法也涉及视觉数据,因为这家巨头拥有超过 100 亿个图像-字幕对,包括屏幕截图和手写笔记。它还使用自己的模型来生成更丰富的字幕。所有这些训练方法都有助于 Apple 构建更智能、更强大的模型。Apple 训练其 AI 模型的方法非常清晰。这是一种平衡的策略,既能确保系统保持强大和多功能性,又不会损害其核心价值:隐私。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Python 3.14 RC1 发布
Python 3.14 rc1 现已发布。 进入发布候选阶段后,此发布候选版与最终发布版之间只允许发布经过审核且明确修复错误的代码更改。第二个候选版本(也是计划中的最后一个发布预览版)计划于 2025 年 8 月 26 日星期二发布,而 3.14.0 的正式发布版计划于 2025 年 10 月 7 日星期二发布。 从现在开始,3.14 系列将不会有任何 ABI 变化,目标是尽可能减少代码变化。 Python 3.14 中的一些主要新功能和变化包括: 新功能 PEP 779:自由线程 Python 正式获得支持 PEP 649:类型注释的评估现在被推迟,从而改善了使用注释的语义。 PEP 750:使用熟悉的 f-strings 语法自定义字符串处理的模板字符串字面量 (t-strings)。 PEP 734:标准库中的多个解释器。 PEP 784:一个为 Zstandard 压缩算法提供支持的新模块compression.zstd。 PEP 758:except和except*表达式现在可以省略括号。 PyREPL 中的语法高亮显示,以及对unittest、argparse、json和c...
- 下一篇
ConvertX —— 在线文件转换器
一个自托管的在线文件转换器。支持超过一千种不同的格式。使用 TypeScript、Bun 和 Elysia 编写。 特性 将文件转换为不同的格式 一次处理多个文件 密码保护 多个账户
相关文章
文章评论
共有0条评论来说两句吧...