您现在的位置是:首页 > 文章详情

苹果公开 AI 模型训练策略:从大规模网络抓取到秘密授权交易和合成内容

日期:2025-07-22点击:9

近日,苹果发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何对模型进行微调。报告还探讨了用于确保模型技术改进的方法,以提高模型效率,同时避免隐私泄露。

报告介绍了一款约30亿参数的端侧模型,该模型通过KV 缓存共享和 2-bit量化感知训练等架构创新,针对苹果芯片进行了优化。

另一款是基于新颖的“并行轨道混合专家”(Parallel-Track Mixture-of-Experts, PT-MoE)Transformer 架构的可扩展服务器模型,该模型在苹果的私有云计算平台(Private Cloud Compute)上运行,结合了轨道并行、稀疏计算和交错的全局-局部注意力机制。

两款模型均在通过负责任的网络爬取、授权语料库和高质量合成数据构建的大规模多语言、多模态数据集上进行训练,并利用一个新的异步平台进行监督微调和强化学习。

报告指出,在公开基准测试和人类评估中,这两款模型都达到或超过了同等规模的开源基线模型。此外,苹果还推出了一个以 Swift 为中心的全新基础模型框架,支持引导式生成、约束性工具调用和 LoRA 适配器微调。

凭借新模型,苹果显著提升了多语言能力。为了扩展语言支持,苹果将训练过程中非英语数据的比例从 8% 提升至 30%,涵盖真实内容和 AI 生成的内容,从而提升模型的理解能力,并支持更广泛的语言。这将使写作工具等功能更好地发挥作用。

在训练新的 AI 系统时,苹果大量依赖其自主研发的网络爬虫 Applebot 收集的网络数据,这些数据也已在之前的模型中使用。有趣的是,由于苹果尊重隐私,如果网站不想被爬取,就不会使用其内容。

该公司使用多种技术来训练其模型,主要使用公共网络数据作为训练材料。苹果倾向于过滤不相关的内容,并专注于有用且切题的数据集。同样,这家科技巨头也依赖出版商的授权内容,尽管它确实透露了其所依赖的媒体公司的名称。该公司还使用较小的模型来收集合成数据,尤其是在涉及图像语言任务、代码或指令执行时,以便更好地进行微调。

这种多方法也涉及视觉数据,因为这家巨头拥有超过 100 亿个图像-字幕对,包括屏幕截图和手写笔记。它还使用自己的模型来生成更丰富的字幕。所有这些训练方法都有助于 Apple 构建更智能、更强大的模型。Apple 训练其 AI 模型的方法非常清晰。这是一种平衡的策略,既能确保系统保持强大和多功能性,又不会损害其核心价值:隐私。

原文链接:https://www.oschina.net/news/361734
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章