介绍苹果的设备端和服务器基础模型
在2024年全球开发者大会(WWDC)上,苹果推出了Apple Intelligence,这是一个深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统,并公布相关技术细节,整理关键点如下。原文链接
Apple Intelligence由多个高度能产的生成模型组成,专门用于我们用户的日常任务,并能根据当前活动即时适应。构建在Apple Intelligence中的基础模型已经被微调,以改善用户体验,例如撰写和完善文本、优先排序和总结通知、为与家人和朋友的对话创建有趣的图像,以及在应用程序中采取行动以简化跨应用程序的交互。
在以下概览中,我们将详细介绍其中的两个模型——一个约30亿参数的设备端语言模型,以及一个更大的服务器基础语言模型,该模型可通过Private Cloud Compute获得,并在苹果硅服务器上运行——它们的构建和适应方式,以高效、准确和负责任地执行专门任务。这两个基础模型是苹果为支持用户和开发者而创建的更大家族生成模型的一部分;这包括一个编码模型,用于在Xcode中构建智能,以及一个扩散模型,帮助用户在信息应用等中视觉上表达自己。我们期待很快分享有关这更大家族模型的更多信息。
苹果的自研模型全家桶目前确认会有四款模型。
在本概述的其余部分,介绍如何开发高度能产、快速和节能的模型的决策的详细信息;如何接近训练这些模型;适配器如何针对特定用户需求进行微调;以及如何评估模型性能,以实现帮助性和避免LLM幻觉。
负责任AI
老生常谈,Apple Intelligence在每一步设计中都很关注用户隐私,制定了一套负责任AI原则,指导如何开发AI工具以及支撑它们的模型:
- 用智能工具赋予用户力量:我们确定可以负责任地使用AI来创建解决特定用户需求的工具的领域。我们尊重用户选择使用这些工具来实现他们的目标的方式。
- 代表我们的用户:我们构建深受个人化的产品,目标是真实地代表全球用户。我们不断努力避免在我们的AI工具和模型中延续刻板印象和系统性偏见。
- 谨慎设计:我们在流程的每个阶段,包括设计、模型训练、功能开发和质量评估中采取预防措施,以识别我们的AI工具可能被滥用或导致潜在伤害的方式。我们将借助用户反馈,持续积极地改进我们的AI工具。
- 保护隐私:我们通过强大的设备端处理和像Private Cloud Compute这样的突破性基础设施来保护我们用户的隐私。我们在训练我们的基础模型时,不使用我们用户的私人个人数据或用户交互。
以下是Adapters的处理流程,可以参考下:
Pre-Training
基础模型是在苹果的AXLearn框架上训练的,这是苹果在2023年发布的一个开源项目。它建立在JAX和XLA之上,允许我们在各种训练硬件和云平台上,包括TPU和云端及本地GPU上,以高效率和可扩展性训练模型。通过使用数据并行性、张量并行性、序列并行性和完全分片数据并行(FSDP)的组合,沿着数据、模型和序列长度等多个维度扩展训练。
训练基础模型的数据来源,包括为增强特定功能而选择的数据,以及通过网络爬虫AppleBot收集的公开可用数据。
基础模型训练时不使用用户的私人个人数据或用户交互数据,通过过滤器来删除公开可在网上获取的个人身份信息,如社会安全号码和信用卡号,也需要过滤掉亵渎和其他低质量内容,以防止不符合社会主义价值观hhh。除了过滤,包括数据提取、去重和应用基于模型的分类器等方法,以识别高质量的文档。
Post-Training
数据质量对模型成功至关重要,在训练管道中采用了混合数据策略,结合了人工注释和合成数据,并进行了彻底的数据整理和过滤程序。苹果在后训练中开发了两种新算法:
(1)带有教师委员会的拒绝采样微调算法
(2)具有镜像下降策略优化和留一法优势估计器的人类反馈强化学习(RLHF)算法。
这两种算法显著提高了模型遵循指令的质量,但是详细内容没介绍。
Optimization
为了确保生成模型高性能,为首次令牌和扩展令牌推理性能应用了大量优化。
设备端和服务器模型都使用分组查询注意力机制,使用共享的输入和输出词汇嵌入表来减少内存需求和推理成本。通过共享的嵌入张量在映射时没有重复。设备端模型使用49K的词汇量,而服务器模型使用100K的词汇量,其中包括额外的语言和技术令牌。
对于设备端推理,使用低比特调色板化,这是一个关键的优化技术,实现了必要的内存、功率和性能要求。为了保持模型质量,开发了一个新的框架,使用LoRA适配器,结合了混合2比特和4比特的配置策略——平均每权重3.5比特——以实现与未压缩模型相同的准确性。
此外,使用交互式模型延迟和功耗分析工具Talaria,以更好地指导每个操作的比特率选择。我们还利用激活量化和嵌入量化,并开发了一种方法,以在我们的神经引擎上实现高效的键值(KV)缓存更新。
通过这套优化,在iPhone 15 Pro上,能够达到每个提示令牌大约0.6毫秒的时间到首个令牌延迟,以及每秒30个令牌的生成速率。值得注意的是,这种性能是在采用令牌推测技术之前获得的,我们从这项技术中看到了令牌生成速率的进一步提升。
Model Adaptation
基础模型针对用户的日常工作活动进行了微调,并可以动态地针对手头的任务即时专业化。通过使用适配器,这是可以插入预训练模型各个层的小型神经网络模块,来针对特定任务场景微调模型,调整注意力矩阵、注意力投影矩阵以及Transformer架构解码层的适当集合中的全连接层。
通过仅微调适配器层,原始的预训练模型参数保持不变,保留了模型的一般知识,同时定制适配器层以支持特定任务。
图2:Adapters是覆盖在通用基础模型上的小型模型权重集合。
它们可以动态加载和交换——使基础模型能够针对手头的任务即时专业化。Apple Intelligence包括众多的Adapters,每个Adapter都针对特定功能进行了微调。有效扩展基础模型能力的使用场景,个人感觉有点类似于Agent。
苹果使用16位表示适配器参数的值,并且对于约30亿参数的设备端模型,一个16级适配器的参数通常需要数十兆字节。适配器模型可以动态加载、暂时缓存在内存中,并交换——使我们的基础模型能够针对手头的任务即时专业化,同时有效管理内存并保证操作系统的响应性。
为了促进适配器的训练,创建了一个高效的基础设施,允许我们在基础模型或训练数据更新时,快速重新训练、测试和部署适配器。适配器参数使用在优化部分介绍的准确性恢复适配器进行初始化。
Performance and Evaluation
苹果专注于提供能够使用户能够在其苹果产品上进行通信、工作、表达自己和完成事情的生成模型。在对模型进行基准测试时,专注于人类评估,与产品中的用户体验高度相关,对特定功能的适配器和基础模型都进行了性能评估。
项目 1:摘要总结
鉴于邮件和通知摘要的需求虽然细微但极其关键,苹果对压缩后的基础模型应用了精度恢复 LoRA 适配器进行微调,以贴合具体需求。训练素材基于大型服务器模型产出的合成摘要,并经由严格的筛选机制,仅保留最优质的部分。
为了验证特定场景下的摘要质量,苹果选取了 750 份精心挑选的样本,每一种应用场景均包含在内。这组评估资料特意包含了产品特性在实际应用中可能遇到的各种复杂输入情况,既有单一文档也有复合文档,内容类型和长度各异。确保贴近真实应用场景对评估来说至关重要,结果显示,采用适配器的模型生成的摘要优于同类模型。
为了开发「负责任的 AI」,苹果还识别并分析了摘要功能内在的风险,比如某些情况下摘要可能会不当简化信息。幸运的是,摘要适配器在超过 99% 的对抗性示例中未加剧敏感内容的问题,随后测试团队持续进行对抗性测试,以探索未知风险点,并据此指导后续优化。
两种摘要应用场景下“优秀”与“不佳”反馈占比,依据评价者在五个标准上的打分划分。只有当所有维度均达到高分标准时才被视为“优秀”,有任何一项指标得分偏低即被标记为“不佳”。结果表明,苹果的适配器增强模型在摘要生成上更胜一筹。
项目 2:通用能力
除了功能特性的专项测试,苹果也检验了设备内置模型和云端模型的通用能力。采用广泛的真实世界情境作为测试样本,这些情境包罗万象,从简单的创意思维到复杂的数学问题解答,再到代码编写和文本安全检测。
苹果将自家模型与开源界(如Phi-3、Gemma、Mistral、DBRX)及业界同量级的商用模型(GPT-3.5-Turbo、GPT-4-Turbo)进行了对比。结果显示,多数情况下,苹果模型更受人类评审员的青睐。
这块苹果很突出,即使参数量仅为约 30 亿的设备端模型,在多项基准测试中也能超越 Phi-3-mini、Mistral-7B 和 Gemma-7B 等大模型。而云端模型的表现更是优于 DBRX-Instruct、Mixtral-8x22B 及 GPT-3.5-Turbo,同时保持着极高的效率。
项目 3:风险敏感
测试团队还利用一套多样化的对抗性提示来检测模型在处理有害信息、敏感话题及事实准确度方面的表现。
通过人类评审员的打分,测试团队量化了模型在这类测试中的违规频率,数值越低代表表现越佳。无论是设备端还是云端模型,在面临挑战性测试时都表现出了强大的稳健性,违规率远低于开源和商业竞品。
在有害内容、敏感话题及事实准确性方面的违规响应占比,数值越小意味着模型越能妥善应对对抗性挑战。苹果的模型在这方面展现出了显著的鲁棒性。人类评审员一致认为,相较于竞争对手,苹果的模型在安全性与实用性上更胜一筹。尽管如此,鉴于大语言模型的广泛潜力,研究团队深知当前安全评估的局限。因此,苹果正与内外部团队密切合作,通过手动及自动化手段持续进行安全审计,以期不断提升模型的安全水平。
项目 4:模型安全性
相较于竞争者,在特定情境提示下,苹果的基础模型被人类评审员一致认为更安全、实用。尽管如此,鉴于大语言模型的多功能性,研究团队也清楚意识到当前安全评估标准的局限性。因此,苹果正携手内外部团队,积极开展手动与自动化红蓝对抗测试,持续监控模型安全性表现。
上面这张测评描述了安全导向评估场景下,苹果基础模型相对其他可比模型在获得偏好评价方面的占比。通过人类审核确认,苹果模型的回应不仅更安全,且实用性更强。
项目 5:指令执行能力
为进一步验证性能,苹果借助 Instruction-Following Eval(IFEval)标准,与同等级别模型对比指令执行能力。结果显示,无论是在设备内置还是云端版本上,苹果模型均优于市面上开源及商用竞品,展现出对复杂指令的出色遵循力。
使用IFEval测量的苹果基础模型和大小相当的模型的指令遵循能力(越高越好)。
项目 6:写作
为了检验写作技能,测试团队利用包含多样写作指令的内部摘要与创作指标进行评估。需注意的是,这部分测试不涉及第一轮 PK 中提及的特定摘要适配器,也未专门设计用于评估创作能力的适配器。
下面这张图反映了在上述内部评估体系下,模型的写作能力水平(同样遵循高分优原则)
结论
在WWDC24上介绍的苹果基础模型和适配器构成了Apple Intelligence的基础,全新的个人智能系统,深度集成到iPhone、iPad和Mac中,并在语言、图像、动作和个人上下文中提供了强大的功能。有助于用户在苹果产品上完成日常活动,并在每个阶段以苹果的核心价值为指导保护用户数据安全与隐私。
比较了以下模型版本:gpt-3.5-turbo-0125、gpt-4-0125-preview、Phi-3-mini-4k-instruct、Mistral-7B-Instruct-v0.2、Mixtral-8x22B-Instruct-v0.1、Gemma-1.1-2B和Gemma-1.1-7B。结合苹果自身的优势,从多个维度将生成式AI纳入自己的产品,提升用户体验。