苹果公开 AI 模型训练策略:从大规模网络抓取到秘密授权交易和合成内容
近日,苹果发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何对模型进行微调。报告还探讨了用于确保模型技术改进的方法,以提高模型效率,同时避免隐私泄露。 报告介绍了一款约30亿参数的端侧模型,该模型通过KV 缓存共享和 2-bit量化感知训练等架构创新,针对苹果芯片进行了优化。 另一款是基于新颖的“并行轨道混合专家”(Parallel-Track Mixture-of-Experts, PT-MoE)Transformer 架构的可扩展服务器模型,该模型在苹果的私有云计算平台(Private Cloud Compute)上运行,结合了轨道并行、稀疏计算和交错的全局-局部注意力机制。 两款模型均在通过负责任的网络爬取、授权语料库和高质量合成数据构建的大规模多语言、多模态数据集上进行训练,并利用一个新的异步平台进行监督微调和强化学习。 报告指出,在公开基准测试和人类评估中,这两款模型都达到或超过了同等规模的开源基线模型。此外,...
