您现在的位置是:首页 > 文章详情

苹果设备端和服务器端基础语言模型的更新

日期:2025-06-10点击:32

本文翻译自:https://machinelearning.apple.com/research/apple-foundation-models-2025-updates

借助 Apple Intelligence,我们将在人们每天使用的应用和体验中集成强大的生成式人工智能,同时保护用户的隐私。在2025年全球开发者大会(WWDC)上,我们推出了一代全新的语言基础模型,这些模型专门设计用于增强我们最新软件版本中的 Apple Intelligence 特性。我们还推出了新的 Foundation Models 框架,该框架让应用开发者可以直接访问 Apple Intelligence 核心的设备端基础语言模型。

我们构建了这些生成模型,以支持我们在各平台中集成的广泛智能功能。这些模型提升了工具使用和推理能力,能够理解图像和文本输入,运行更快且更高效,并且支持15种语言。我们的最新基础模型经过优化,可在Apple芯片上高效运行,包括一个紧凑型的、约30亿参数的模型,以及一个基于服务器的混合专家模型,其架构专为私有云计算设计。这两个基础模型是苹果为支持我们的用户而创建的更大生成模型家族的一部分。

在此概述中,我们详细介绍了我们设计的模型架构、用于训练的数据、所采用的训练配方、用于优化推理的技术,以及与同类模型相比的评估结果。在整个过程中,我们强调了如何在设备和私有云计算上实现速度和效率的提升,同时扩展了能力并提高了质量。最后,在我们持续致力于维护核心价值观的承诺下,我们展示了负责任的人工智能原则如何贯穿整个模型开发过程。

图1:苹果基础模型的建模概述

模型架构

我们开发了设备端和服务器模型,以满足广泛的表现和部署需求。设备端模型针对效率进行了优化,并针对Apple芯片进行了定制,使推理具备低延迟且资源使用极少的特性,而服务器模型则设计用于提供高准确性和可扩展性,以处理更复杂的任务。共同而言,它们构成了一个互补的解决方案集,能够适应多种应用场景。

我们通过开发新的模型架构,提高了两种模型的效率。对于端侧模型,我们将完整模型分成两个块,深度比例为5:3。块2的所有键值(KV)缓存都直接与块1最终层生成的KV缓存共享,从而将KV缓存的内存使用量减少了37.5%,显著提高了首次令牌生成时间。我们还为服务器模型开发了新的架构,引入了并行轨道混合专家(PT-MoE)设计(见图2)。该模型由多个较小的Transformer组成,称为轨道,这些轨道独立处理令牌,仅在每个轨道块的输入和输出边界进行同步。每个轨道块还具有自己的MoE层。结合轨道独立性带来的轨道级并行性,这种设计显著减少了同步开销,使模型能够高效扩展,同时在不牺牲质量的情况下保持低延迟。

图2:PT-MoE架构示意图。每个轨道由多个轨道块组成,每个轨道块包含固定数量的transformer/MoE层。假设总共有L层和轨道块深度D,那么我们从2L(张量并行)的同步开销减少到L/D(轨道并行)。例如,如果D = 4,PT可将同步开销减少87.5%。

为支持更长的上下文输入,我们设计了一种交错注意力架构,结合滑动窗口局部注意力层、旋转位置嵌入(RoPE)和无位置嵌入(NoPE)的全局注意力层。这种设置提高了长度泛化能力,减少了KV缓存大小,并在长上下文推理中保持模型质量。

为了启用视觉能力,我们开发了一个在大规模图像数据上训练的视觉编码器。它由一个用于提取丰富特征的视觉主干网络和一个将特征与LLM的标记表示对齐的视觉-语言适配器组成。我们使用标准的Vision Transformer(ViT-g)作为服务器模型,参数量为10亿;而用于设备端部署的更高效ViTDet-L主干网络参数量为3亿。为了进一步有效捕捉并整合局部细节和更广泛的全局上下文,我们在标准的ViTDet中添加了一个新颖的注册窗口(RW)机制,使得全局上下文和局部细节都能被有效捕捉。

训练数据

我们相信通过使用多样且高质量的数据来训练我们的模型。这包括我们从出版商处获得许可的数据、从公开可用或开源数据集精心整理的数据,以及由我们的网络爬虫Applebot爬取的公开信息。我们在训练基础模型时不会使用用户的私人个人数据或用户交互数据。此外,我们采取措施应用过滤器,以删除某些类别的人口识别信息,并排除粗俗和不安全的内容。

此外,我们继续遵循伦理网络爬虫的最佳实践,包括遵循广泛采用的robots.txt协议,允许网页发布者选择性地退出其内容被用于训练Apple的生成基础模型。网页发布者可以对Applebot可以查看的页面以及这些页面如何被使用进行精细控制,同时这些页面仍会出现在Siri和Spotlight的搜索结果中。

文本数据

尽管如上所述保留了某些排除项,我们继续从由Applebot抓取的网络内容中获取我们模型预训练数据的重要部分,这些内容涵盖了数百亿页的网页,涉及广泛的语言、地区和主题。鉴于网络内容的杂乱性,Applebot采用了先进的抓取策略,以优先获取高质量和多样化的网页内容。特别是,我们专注于捕获高保真度的HTML页面,这些页面丰富了数据集,不仅包含文本,还包含结构化的元数据,以对媒体内容与周围文本内容进行对齐。为了提高相关性和质量,系统利用了多种信号,包括基于领域级别的语言识别、主题分布分析以及URL路径模式的启发式方法。

我们特别注重准确地从文档和现代网站中提取内容。我们通过无头渲染增强了文档集合,实现了全页加载、动态内容交互和JavaScript执行,这对于从网页架构中提取数据至关重要。对于依赖动态内容和用户交互的网站,我们启用了完整的页面加载和交互模拟,以可靠地从复杂页面中提取有意义的信息。我们还将在提取流程中整合大型语言模型(LLMs),尤其是在领域特定文档中,因为它们通常比传统基于规则的方法表现更佳。

除了先进的爬虫策略,我们还显著扩大了训练数据的规模和多样性,并纳入了大量高质量的通用领域、数学和编程内容。我们还扩展了多语言支持,以支持即将在今年下半年推出的新的语言。

我们认为高质量的过滤在整体模型性能中起着关键作用。我们通过减少对过于激进的启发式规则的依赖,并引入更多基于模型的过滤技术,优化了我们的数据过滤流程。通过引入基于模型的信号,我们能够保留更多具有信息量的内容,从而获得更大规模且质量更高的预训练数据集。

图像数据

为了增强我们的模型,并为Apple Intelligence功能提供视觉理解能力,我们将在预训练流程中引入图像数据,利用高质量的授权数据以及公开可用的图像数据。

使用我们的网页爬虫策略,我们获取了带有对应alt文本的图像对。除了过滤以确保符合法律要求外,我们还过滤了数据质量,包括图像与文本的一致性。去重后,这一过程产生了超过100亿对高质量的图像-文本对。此外,我们通过保留从爬取文档中原始观察到的文本上下文来创建图像-文本交错数据。在过滤质量和法律合规性后,这产生了1.75亿个交错的图像-文本文档,包含超过5.5亿张图像。由于网络爬取的图像-文本对通常较短,且往往无法全面描述图像的视觉细节,我们使用合成图像描述数据来提供更丰富的描述。我们开发了一个内部的图像描述模型,能够提供不同细节层次的高质量描述,从关键词到段落级的全面描述,生成了超过50亿个图像-描述对,这些数据被用于预训练的各个阶段。

为提高模型在文本丰富的视觉理解方面的能力,我们整理了多种文本丰富的数据集,包括通过授权数据、网络爬虫和内部合成方式获取的PDF、文档、手稿、信息图、表格和图表。我们随后从图像数据中提取文本,并从图像数据中生成转录文本和问答对。

我们整理了多种图像-文本数据类型:

  • 高质量标题数据和基于语义的标题:我们使用对比语言-图像预训练(CLIP)模型和光学字符识别(OCR)工具作为过滤器,从上述合成图像标题数据中获取高质量图像。然后,我们使用内部的定位模型对标题中的名词进行定位,并在名词后附加坐标,形成基于语义的标题。

  • 表格、图表和图表:对于图表和图表,我们首先让内部的LLM生成合成数据字段和相应的值,然后让LLM编写代码,根据之前合成的数据样本生成各种类型的图表和图表。最后,我们将图表、图表和数据样本输入教师模型,以生成用于模型训练的问答对。对于表格,我们从公开网站中解析表格并将其转换为markdown,然后使用教师模型生成的图像-markdown配对以及图像-合成问答对用于模型训练。

预训练

我们的预训练配方已演进,以扩展Apple Intelligence能力,支持更多语言以及更广泛的功能,包括需要图像理解的功能。

预训练在多个阶段进行,其中第一个且计算需求最高的阶段仅针对文本模态。我们使用蒸馏损失训练设备端模型,但没有采用大型密集模型作为教师模型并从头开始预训练,而是利用少量最高质量的文本数据,对一个预训练的约3B模型中的64个专家、每两层混合专家(MoE)进行稀疏升维处理。这将教师模型的训练成本降低了90%。然而,我们从头开始在14T文本标记上训练了稀疏服务器模型。

为了更好地支持新语言,我们在这一阶段将文本分词器的词汇量从10万扩展到15万,仅用25%更多的标记,就实现了对许多额外语言的表示质量。为了实现视觉感知,我们使用CLIP风格的对比损失训练了设备端和服务器端的视觉编码器,对60亿张图像-文本对进行对齐,从而得到了具有良好视觉基础的编码器。

在预训练的第二阶段,我们使用一个小的解码器,将视觉编码器与一个视觉-语言适应模块联合训练,利用高质量文本数据、交错的图像-文本数据和领域特定的图像-文本数据,对图像特征与模型表示空间进行对齐。然后,我们利用这些视觉编码器和预训练模型,提升代码、数学、多语言、长上下文理解能力,并通过多个连续的预训练阶段融入图像理解。

在持续预训练阶段,我们调整了数据集的混合比例,同时结合经过验证正确的合成数据,以提升代码、数学和多语言能力。随后,我们通过多模态适应引入了视觉理解,而不会损害模型的文本能力。在此阶段,我们从头开始训练了一个视觉-语言适应模块,以连接视觉编码器到两个模型。在最终的持续预训练阶段,我们训练模型以处理显著更长的上下文长度,使用最多65K个标记的序列,这些序列来自自然发生的长格式数据、专门针对特定能力设计的合成长格式数据,以及之前预训练轮次中的混合数据。

后训练

与我们在预训练中的方法类似,我们演进我们的后训练流程,以支持语言扩展和视觉理解。

我们通过结合人工编写的数据示例和合成数据对监督微调(SFT)进行了扩展,重点提升核心视觉能力。这包括常识知识、推理、文本丰富的图像理解、文本与视觉定位,以及多图像推理。我们进一步通过检索额外图像并合成其对应的提示和响应,来增强视觉 SFT 数据的多样性。

我们利用这一SFT阶段进一步启用工具使用和多语言支持。我们设计了一种过程监督标注方法,其中标注人员向工具使用代理平台发起查询,返回平台的完整轨迹,包括工具调用细节、相应的执行响应以及最终响应。这使标注人员能够检查模型的预测并纠正错误,从而生成一个树状结构的数据集用于教学。为了扩展到更多语言,我们默认将输出语言与输入语言匹配,但我们也通过创建一个包含多种语言的多样化数据集,启用了提示和响应使用不同语言的选项。

我们在SFT阶段之后,对设备端模型和服务器端模型均应用了基于人类反馈的强化学习(RLHF)。同时,我们提出了一种基于模型多轮生成奖励方差的新型提示选择算法,用于为RLHF训练定制提示数据集。我们的评估结果显示,RLHF在人类和自动基准测试中均带来了显著提升。此外,尽管我们在SFT和RLHF阶段均引入了多语言数据,但我们发现RLHF在SFT基础上提供了显著提升,导致人类评估中的胜败比达到16:9。

为继续提升模型在多语言性能上的质量,我们使用了指令遵循评估(IFEval)和Alpaca Evals,并以GPT-4o作为评判者。我们收集了每种支持语言中由母语者撰写的1000个提示。通过仔细的提示微调,我们实现了自动评估与人类评估之间的良好对齐,从而加快了迭代速度。

优化

在过去一年中,我们扩展了Apple Intelligence的功能,并在提高推理效率、减少设备端和服务器端模型的功耗的同时,提升了模型的质量。

我们使用量化感知训练(QAT)将设备端模型压缩到每权重2位(bpw),采用了一种新颖的可学习权重裁剪和权重初始化组合。服务器端模型则使用了一种基于块的纹理压缩方法,称为自适应可扩展纹理压缩(ASTC)。虽然ASTC最初是为图形管线开发的,但我们发现它在模型压缩方面也非常有效。ASTC解压过程在Apple GPU中实现了专用硬件组件,使权重解码无需引入额外的计算开销。

对于两种模型,我们对嵌入表进行了4位量化——对于设备端模型,使用QAT与基础权重联合训练;而对于服务器端模型,则使用后训练量化。键值缓存(KV cache)每个权重量化为8位。然后,我们使用额外的数据训练低秩适配器,以恢复由于这些压缩步骤而损失的质量。通过这些技术,我们观察到一些轻微的质量退化,甚至有微小的提升,例如,对于设备端模型,在MGSM上出现了约4.6%的退化,在MMLU上提升了1.5%;而对于服务器端模型,在MGSM上退化了2.7%,在MMLU上退化了2.3%。

表1. On-Device和Server基础模型的压缩和比特率。

基础模型框架

新的基础模型框架为开发者提供了访问权限,使他们能够使用搭载在设备上的约30亿参数语言模型,开始创建自己可靠、适用于生产的生成式AI功能。Apple Intelligence核心的约30亿参数语言基础模型在多种文本任务上表现出色,例如摘要、实体提取、文本理解、细化、简短对话、生成创意内容等。它并非设计成一个用于一般世界知识的聊天机器人。我们鼓励应用开发者使用此框架来构建有助于他们应用的特色功能。

我们框架的亮点是一种直观的Swift方法,用于受限解码,称为引导生成。通过引导生成,开发者可以直接使用丰富的Swift数据结构,只需在Swift结构体或枚举上添加一个@Generable宏注解。这之所以可行,是因为与模型、操作系统和Swift编程语言的垂直集成。它始于Swift编译器宏,这些宏将开发者定义的类型转换为标准化的输出格式规范。在提示模型时,框架会将响应格式注入提示中,而模型能够理解并遵守该格式,因为其在专门设计的引导生成规范数据集上进行了后训练。接下来,一个操作系统守护进程采用高度优化且互补的受限解码和推测解码实现,以提高推理速度,同时确保模型的输出符合预期格式。基于这些保证,框架能够可靠地从模型输出创建Swift类型的实例。这通过让应用开发者编写更简单的代码,而这些代码又由Swift类型系统支持,从而简化了开发者的体验。

工具调用为开发者提供了定制 ~3B 模型能力的权力,通过创建提供模型特定信息源或服务的工具来实现。

框架对工具调用的处理方式基于引导生成。开发者提供简单的 Tool Swift 协议实现,框架会自动且最优地处理并行和串行工具调用可能带来的复杂调用图。模型在工具使用数据上的微调提高了该框架功能的可靠性。

我们精心设计了该框架,以帮助应用开发者充分利用设备上的模型。对于需要教会约3B模型完全新技能的专用应用场景,我们还提供了一个Python工具包,用于训练排名32的适配器。由该工具包生成的适配器与基础模型框架完全兼容。然而,适配器必须随着基础模型的新版本重新训练,因此在彻底探索基础模型能力之后,才应在高级应用场景中考虑部署一个适配器。

评估

我们使用人类评估者对我们的设备端和服务器端模型进行了离线质量评估。我们评估了标准的基本语言和推理能力,包括分析推理、头脑风暴、聊天、分类、封闭式问题和回答、编码、创意写作、提取、数学推理、开放式问题和回答、改写、摘要以及工具使用。

随着我们模型支持的语言和区域的扩展,我们也扩展了评估任务集,使其具有区域特定性。人类评分者评估模型生成的响应是否听起来符合该区域用户的母语。例如,当一个模型回应来自英国用户的一个英语体育问题时,预期该模型知道“足球”比“足球”更符合当地习惯用语。评分者可以针对模型响应中的多种问题进行标记,包括不当地域化的术语或不自然的短语。区域特定的评估使用了与英语美国区域类似的分类,只是排除了像数学和编程这样的技术领域,这些领域大多本质上是地域无关的。

我们发现,我们的设备端模型在所有语言中均表现良好,优于稍大的Qwen-2.5-3B模型,并在英语中与较大的Qwen-3-4B和Gemma-3-4B模型具有竞争力。我们的服务器端模型在与Llama-4-Scout模型的对比中表现良好,Llama-4-Scout的总大小和活跃参数数量与我们的服务器模型相当,但落后于较大的模型,如Qwen-3-235B和专有版本的GPT-4o。

文本响应的人类评估

图3:在将Apple的基准模型与公开可访问模型进行并列评估时,文本响应中被首选的响应比例。结果按3个地区组呈现,这是我们观察Apple Intelligence国际化方式的一种视角。例如,英语(非美国)包括英国英语、加拿大英语等其他语言。PFIGSCJK指的是葡萄牙语、法语、意大利语、德语、西班牙语、简体中文、日语和韩语。

随着我们的模型支持扩展到图像模态,使用了图像-问题对的评估集来评估图像理解能力。该评估集包含与文本评估集相似的类别,以及图像特定的类别,如信息图,这些类别挑战模型对文本丰富的图像进行推理。我们比较了设备端模型与类似规模的视觉模型,即InternVL-2.5-4B、Qwen-2.5-VL-3B-Instruct和Gemma-3-4B,并将我们的服务器模型与Llama-4-Scout、Qwen-2.5-VL-32B和GPT–4o进行比较。我们发现,苹果的设备端模型在与较大的InternVL和Qwen相比时表现良好,在与Gemma竞争时也表现出竞争力,而我们的服务器模型在推理FLOPS仅为一半的情况下,优于Qwen-2.5-VL,但落后于Llama-4-Scout和GPT–4o。

图像响应的人类评估

图4:在将苹果基础模型与可比模型进行图像响应并列评估时,首选响应的比例。

除了评估基础模型的通用能力外,还对适配器进行了特征特定的评估。例如,考虑基于适配器的视觉智能功能,该功能可以从传单的图片中创建日历事件。收集了一组覆盖广泛环境设置、相机角度和其他挑战性场景的传单作为评估集。该集用于评估模型准确从传单中提取信息(包括日期和地点)以正确创建日历事件的能力。

负责任的人工智能

Apple Intelligence 是在每一步都基于我们的 核心价值观 设计,并建立在行业领先的隐私保护基础之上。此外,我们还制定了我们的负责任的人工智能原则,以指导我们如何开发人工智能工具,以及支撑这些工具的模型。这些原则体现在使 Apple Intelligence 成为可能的架构的每一个阶段,并连接了功能和工具与专用模型:

  1. 通过智能工具赋能用户: 我们识别AI可以负责任地用于满足特定用户需求的领域,并创建相应的工具。我们尊重用户如何选择使用这些工具来实现他们的目标。

  2. 代表我们的用户: 我们打造深度个性化的产品,目标是真实地代表全球的用户。我们持续努力避免在我们的AI工具和模型中延续刻板印象和系统性偏见。

  3. 精心设计: 在我们的整个流程中,包括设计、模型训练、特征开发和质量评估等阶段,我们都会采取预防措施,以识别我们的AI工具可能被误用或导致潜在危害的方式。我们将通过用户反馈持续监控并主动改进我们的AI工具。

  4. 保护隐私: 我们通过强大的设备端处理和突破性的基础设施,如私有云计算,来保护用户的隐私。我们在训练基础模型时,不会使用用户的私人个人数据或用户交互数据。

这些原则指导我们在产品开发周期中的各项工作,影响我们的产品设计、政策、评估和缓解措施。作为苹果对负责任AI的承诺的一部分,我们继续识别并缓解使用基础模型固有的风险,例如幻觉和对提示注入的易受性。我们的安全分类法帮助我们识别需要谨慎处理的敏感内容。

为评估 Apple Intelligence 的安全性,我们在部署之前评估了基础模型以及每个使用这些模型的功能。对于基础模型,我们结合了内部和外部的人类评估与自动评分,并将我们的模型与外部模型进行比较以进行基准测试。我们构建了针对性的安全性评估数据集,以评估基础模型在摘要、问答和头脑风暴等任务上的表现,特别是在处理高风险和敏感内容时的表现。对于各个功能,我们设计了专注于用户面对风险的数据集,以专门识别不想要或未预期的结果,以及测试质量问题在应用于敏感的特定应用程序内容时可能产生的影响。例如,我们在设计新的基础模型框架和支持资源时特别谨慎,以帮助提高应用程序中生成式 AI 的安全性。该框架通过内置的安全防护措施来确保基本的安全性,以减轻有害的模型输入和输出。为了帮助应用程序设计师和开发者将适合他们应用程序的 AI 安全性纳入考虑,我们创建了教育资料,例如新的 生成式 AI 人机界面指南 以指导负责任的 AI 原则。

随着我们向新语言扩展功能,我们也在不同地区和文化中扩展了安全表示,并持续改进以适应我们用户广泛的文化和语言多样性。除了遵守当地的法律和法规外,我们还结合了高质量的外部代表性数据源,与内部和外部的法律、语言和文化专家合作,并审查了以往产品决策的先例,以确保我们的方法在语境中是尊重且相关的。为了设计多语言使用的缓解措施,我们从基础模型层面的多语言预训练对齐开始,然后扩展到针对特定功能的适配器,这些适配器整合了安全对齐数据。此外,我们扩展了我们的防护模型,这些模型旨在拦截有害提示,并在保持多语言适配器的同时,使用语言特定的训练数据。我们还开发了定制数据集,以缓解模型输出中的文化特定风险和偏见及刻板印象。同样,我们通过机器翻译和定向合成数据生成等工具,将我们的评估数据集扩展到多种语言和地域,并由母语者进行完善。最后,我们在各个功能上进行了人工红队测试,以识别每个地区特有的风险。

我们持续监控并主动改进我们的功能,借助用户反馈。例如,在图像游乐场中,用户可以通过点击“点赞”或“踩踏”来对生成的图像提供反馈,还可以添加评论。应用程序开发者也可以通过反馈助手 提供反馈。来自用户和开发者的反馈,以及评估数据和其他指标,帮助我们持续改进 Apple Intelligence 功能和模型。

结论

我们非常兴奋地使Apple Intelligence核心语言基础模型更加高效和强大,从而解锁一系列集成在我们软件平台中的有用功能,并为全球众多语言的用户带来这些功能。我们还为应用开发者提供了直接访问我们设备上的语言基础模型的新Foundation Models框架。应用开发者可以利用无需成本的AI推理功能,仅通过几行代码即可实现,从而通过几行代码将文本提取和摘要等能力带入他们的应用中。我们的最新基础模型在每一步都体现了我们的核心价值观,例如我们对隐私的承诺,以及我们的负责任AI方法。我们期待在未来的技术报告中分享有关我们语言基础模型更新的更多细节。

原文链接:https://www.oschina.net/news/354610/apple-foundation-models-2025-updates
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章