Apple Intelligence模型细节

介绍苹果的设备端和服务器基础模型

在2024年全球开发者大会(WWDC)上,苹果推出了Apple Intelligence,这是一个深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统,并公布相关技术细节,整理关键点如下。原文链接

Apple Intelligence由多个高度能产的生成模型组成,专门用于我们用户的日常任务,并能根据当前活动即时适应。构建在Apple Intelligence中的基础模型已经被微调,以改善用户体验,例如撰写和完善文本、优先排序和总结通知、为与家人和朋友的对话创建有趣的图像,以及在应用程序中采取行动以简化跨应用程序的交互。

在以下概览中,我们将详细介绍其中的两个模型——一个约30亿参数的设备端语言模型,以及一个更大的服务器基础语言模型,该模型可通过Private Cloud Compute获得,并在苹果硅服务器上运行——它们的构建和适应方式,以高效、准确和负责任地执行专门任务。这两个基础模型是苹果为支持用户和开发者而创建的更大家族生成模型的一部分;这包括一个编码模型,用于在Xcode中构建智能,以及一个扩散模型,帮助用户在信息应用等中视觉上表达自己。我们期待很快分享有关这更大家族模型的更多信息。

苹果的自研模型全家桶目前确认会有四款模型。

在本概述的其余部分,介绍如何开发高度能产、快速和节能的模型的决策的详细信息;如何接近训练这些模型;适配器如何针对特定用户需求进行微调;以及如何评估模型性能,以实现帮助性和避免LLM幻觉。

负责任AI

老生常谈,Apple Intelligence在每一步设计中都很关注用户隐私,制定了一套负责任AI原则,指导如何开发AI工具以及支撑它们的模型:

  1. 用智能工具赋予用户力量:我们确定可以负责任地使用AI来创建解决特定用户需求的工具的领域。我们尊重用户选择使用这些工具来实现他们的目标的方式。
  2. 代表我们的用户:我们构建深受个人化的产品,目标是真实地代表全球用户。我们不断努力避免在我们的AI工具和模型中延续刻板印象和系统性偏见。
  3. 谨慎设计:我们在流程的每个阶段,包括设计、模型训练、功能开发和质量评估中采取预防措施,以识别我们的AI工具可能被滥用或导致潜在伤害的方式。我们将借助用户反馈,持续积极地改进我们的AI工具。
  4. 保护隐私:我们通过强大的设备端处理和像Private Cloud Compute这样的突破性基础设施来保护我们用户的隐私。我们在训练我们的基础模型时,不使用我们用户的私人个人数据或用户交互。

以下是Adapters的处理流程,可以参考下:

在这里插入图片描述

Pre-Training

基础模型是在苹果的AXLearn框架上训练的,这是苹果在2023年发布的一个开源项目。它建立在JAX和XLA之上,允许我们在各种训练硬件和云平台上,包括TPU和云端及本地GPU上,以高效率和可扩展性训练模型。通过使用数据并行性、张量并行性、序列并行性和完全分片数据并行(FSDP)的组合,沿着数据、模型和序列长度等多个维度扩展训练。
训练基础模型的数据来源,包括为增强特定功能而选择的数据,以及通过网络爬虫AppleBot收集的公开可用数据。
基础模型训练时不使用用户的私人个人数据或用户交互数据,通过过滤器来删除公开可在网上获取的个人身份信息,如社会安全号码和信用卡号,也需要过滤掉亵渎和其他低质量内容,以防止不符合社会主义价值观hhh。除了过滤,包括数据提取、去重和应用基于模型的分类器等方法,以识别高质量的文档。

Post-Training

数据质量对模型成功至关重要,在训练管道中采用了混合数据策略,结合了人工注释和合成数据,并进行了彻底的数据整理和过滤程序。苹果在后训练中开发了两种新算法:
(1)带有教师委员会的拒绝采样微调算法
(2)具有镜像下降策略优化和留一法优势估计器的人类反馈强化学习(RLHF)算法。
这两种算法显著提高了模型遵循指令的质量,但是详细内容没介绍。

Optimization

为了确保生成模型高性能,为首次令牌和扩展令牌推理性能应用了大量优化。

设备端和服务器模型都使用分组查询注意力机制,使用共享的输入和输出词汇嵌入表来减少内存需求和推理成本。通过共享的嵌入张量在映射时没有重复。设备端模型使用49K的词汇量,而服务器模型使用100K的词汇量,其中包括额外的语言和技术令牌。

对于设备端推理,使用低比特调色板化,这是一个关键的优化技术,实现了必要的内存、功率和性能要求。为了保持模型质量,开发了一个新的框架,使用LoRA适配器,结合了混合2比特和4比特的配置策略——平均每权重3.5比特——以实现与未压缩模型相同的准确性。

此外,使用交互式模型延迟和功耗分析工具Talaria,以更好地指导每个操作的比特率选择。我们还利用激活量化和嵌入量化,并开发了一种方法,以在我们的神经引擎上实现高效的键值(KV)缓存更新。

通过这套优化,在iPhone 15 Pro上,能够达到每个提示令牌大约0.6毫秒的时间到首个令牌延迟,以及每秒30个令牌的生成速率。值得注意的是,这种性能是在采用令牌推测技术之前获得的,我们从这项技术中看到了令牌生成速率的进一步提升。

Model Adaptation

基础模型针对用户的日常工作活动进行了微调,并可以动态地针对手头的任务即时专业化。通过使用适配器,这是可以插入预训练模型各个层的小型神经网络模块,来针对特定任务场景微调模型,调整注意力矩阵、注意力投影矩阵以及Transformer架构解码层的适当集合中的全连接层。

通过仅微调适配器层,原始的预训练模型参数保持不变,保留了模型的一般知识,同时定制适配器层以支持特定任务。
在这里插入图片描述

图2:Adapters是覆盖在通用基础模型上的小型模型权重集合。

它们可以动态加载和交换——使基础模型能够针对手头的任务即时专业化。Apple Intelligence包括众多的Adapters,每个Adapter都针对特定功能进行了微调。有效扩展基础模型能力的使用场景,个人感觉有点类似于Agent。

苹果使用16位表示适配器参数的值,并且对于约30亿参数的设备端模型,一个16级适配器的参数通常需要数十兆字节。适配器模型可以动态加载、暂时缓存在内存中,并交换——使我们的基础模型能够针对手头的任务即时专业化,同时有效管理内存并保证操作系统的响应性。

为了促进适配器的训练,创建了一个高效的基础设施,允许我们在基础模型或训练数据更新时,快速重新训练、测试和部署适配器。适配器参数使用在优化部分介绍的准确性恢复适配器进行初始化。

Performance and Evaluation

苹果专注于提供能够使用户能够在其苹果产品上进行通信、工作、表达自己和完成事情的生成模型。在对模型进行基准测试时,专注于人类评估,与产品中的用户体验高度相关,对特定功能的适配器和基础模型都进行了性能评估。

项目 1:摘要总结

鉴于邮件和通知摘要的需求虽然细微但极其关键,苹果对压缩后的基础模型应用了精度恢复 LoRA 适配器进行微调,以贴合具体需求。训练素材基于大型服务器模型产出的合成摘要,并经由严格的筛选机制,仅保留最优质的部分。

为了验证特定场景下的摘要质量,苹果选取了 750 份精心挑选的样本,每一种应用场景均包含在内。这组评估资料特意包含了产品特性在实际应用中可能遇到的各种复杂输入情况,既有单一文档也有复合文档,内容类型和长度各异。确保贴近真实应用场景对评估来说至关重要,结果显示,采用适配器的模型生成的摘要优于同类模型。

为了开发「负责任的 AI」,苹果还识别并分析了摘要功能内在的风险,比如某些情况下摘要可能会不当简化信息。幸运的是,摘要适配器在超过 99% 的对抗性示例中未加剧敏感内容的问题,随后测试团队持续进行对抗性测试,以探索未知风险点,并据此指导后续优化。

在这里插入图片描述

两种摘要应用场景下“优秀”与“不佳”反馈占比,依据评价者在五个标准上的打分划分。只有当所有维度均达到高分标准时才被视为“优秀”,有任何一项指标得分偏低即被标记为“不佳”。结果表明,苹果的适配器增强模型在摘要生成上更胜一筹。

项目 2:通用能力

除了功能特性的专项测试,苹果也检验了设备内置模型和云端模型的通用能力。采用广泛的真实世界情境作为测试样本,这些情境包罗万象,从简单的创意思维到复杂的数学问题解答,再到代码编写和文本安全检测。

苹果将自家模型与开源界(如Phi-3、Gemma、Mistral、DBRX)及业界同量级的商用模型(GPT-3.5-Turbo、GPT-4-Turbo)进行了对比。结果显示,多数情况下,苹果模型更受人类评审员的青睐。

在这里插入图片描述
这块苹果很突出,即使参数量仅为约 30 亿的设备端模型,在多项基准测试中也能超越 Phi-3-mini、Mistral-7B 和 Gemma-7B 等大模型。而云端模型的表现更是优于 DBRX-Instruct、Mixtral-8x22B 及 GPT-3.5-Turbo,同时保持着极高的效率。

项目 3:风险敏感

测试团队还利用一套多样化的对抗性提示来检测模型在处理有害信息、敏感话题及事实准确度方面的表现。

通过人类评审员的打分,测试团队量化了模型在这类测试中的违规频率,数值越低代表表现越佳。无论是设备端还是云端模型,在面临挑战性测试时都表现出了强大的稳健性,违规率远低于开源和商业竞品。

在这里插入图片描述

在有害内容、敏感话题及事实准确性方面的违规响应占比,数值越小意味着模型越能妥善应对对抗性挑战。苹果的模型在这方面展现出了显著的鲁棒性。人类评审员一致认为,相较于竞争对手,苹果的模型在安全性与实用性上更胜一筹。尽管如此,鉴于大语言模型的广泛潜力,研究团队深知当前安全评估的局限。因此,苹果正与内外部团队密切合作,通过手动及自动化手段持续进行安全审计,以期不断提升模型的安全水平。

项目 4:模型安全性

相较于竞争者,在特定情境提示下,苹果的基础模型被人类评审员一致认为更安全、实用。尽管如此,鉴于大语言模型的多功能性,研究团队也清楚意识到当前安全评估标准的局限性。因此,苹果正携手内外部团队,积极开展手动与自动化红蓝对抗测试,持续监控模型安全性表现。

在这里插入图片描述

上面这张测评描述了安全导向评估场景下,苹果基础模型相对其他可比模型在获得偏好评价方面的占比。通过人类审核确认,苹果模型的回应不仅更安全,且实用性更强。

项目 5:指令执行能力

为进一步验证性能,苹果借助 Instruction-Following Eval(IFEval)标准,与同等级别模型对比指令执行能力。结果显示,无论是在设备内置还是云端版本上,苹果模型均优于市面上开源及商用竞品,展现出对复杂指令的出色遵循力。
在这里插入图片描述
使用IFEval测量的苹果基础模型和大小相当的模型的指令遵循能力(越高越好)。

项目 6:写作

为了检验写作技能,测试团队利用包含多样写作指令的内部摘要与创作指标进行评估。需注意的是,这部分测试不涉及第一轮 PK 中提及的特定摘要适配器,也未专门设计用于评估创作能力的适配器。

下面这张图反映了在上述内部评估体系下,模型的写作能力水平(同样遵循高分优原则)
在这里插入图片描述

结论

在WWDC24上介绍的苹果基础模型和适配器构成了Apple Intelligence的基础,全新的个人智能系统,深度集成到iPhone、iPad和Mac中,并在语言、图像、动作和个人上下文中提供了强大的功能。有助于用户在苹果产品上完成日常活动,并在每个阶段以苹果的核心价值为指导保护用户数据安全与隐私。

比较了以下模型版本:gpt-3.5-turbo-0125、gpt-4-0125-preview、Phi-3-mini-4k-instruct、Mistral-7B-Instruct-v0.2、Mixtral-8x22B-Instruct-v0.1、Gemma-1.1-2B和Gemma-1.1-7B。结合苹果自身的优势,从多个维度将生成式AI纳入自己的产品,提升用户体验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/704532.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【实例分享】访问后端服务超时,银河麒麟服务器操作系统分析及处理建议

1.服务器环境以及配置 【机型】 处理器: Intel 32核 内存: 128G 整机类型/架构: x86_64虚拟机 【内核版本】 4.19.90-25.22.v2101.kylin.x86_64 【OS镜像版本】 kylin server V10 SP2 【第三方软件】 开阳k8s 2.问题现象描述 …

【python】else与循环的搭配使用

看代码时发现的一种写法,学习一下。 1.for1)break2)no break 2.while1)break2)no break 几乎所有语言中,else的常用搭配就是if,而在python中else还可以和循环搭配使用,让代码更加pyt…

什么牌子充电宝质量好耐用呢?认准这几个充电宝,凭实力出圈

在快节奏的现代生活中,科技的不断进步使得各类移动设备如手机、平板和笔记本电脑成为人们生活中不可或缺的部分。为了应对这些设备不断增长的能源需求,充电宝市场的崛起迅猛并呈现出持续增长的态势。 在选购移动电源时,如何识别性能出众、质量…

Lua解释器裁剪

本文目录 1、引言2、文件功能3、选择需要初始化的库4、结论 文章对应视频教程: 已更新。见下方 点击图片或链接访问我的B站主页~~~ Lua解释器裁剪,很简单~ 1、引言 在嵌入式中使用lua解释器,很多时候会面临资源紧张的情况。 同时&#xff0c…

海豚调度清理:使用 API 轻松清理历史工作流实例以及日志文件

💡 本系列文章是 DolphinScheduler 由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。 祝开卷有益。 大数据学习指南 大家好,我是小陶,DolphinS…

AI落地好项目,一张照片秒生成个人写真

AI变现好项目,秒生成个人写真 只需要输入1张照片,无需训练,就能秒级生成个人写真? 你没听错,就是这个神奇的AI工具–InstantID。 众所周知,AI图生图面临的挑战之一是无法保持较高的角色一致性&#xff0c…

敏捷项目管理工具排行榜:打造高效敏捷开发环境的利器

最常见的敏捷项目管理工具包括:Leangoo领歌、Trello、Asana、ClickUp等 在敏捷开发的世界里,项目管理工具如同指挥棒,引领着团队快速响应变化,持续交付价值。介绍几款业内领先的敏捷项目管理工具,帮组大家选择最适合自…

男士内裤买便宜还是贵的?2024年高性价比男士内裤汇总分享

男生内裤,作为贴身衣物,承载着男性的私密与舒适。然而,许多男士的内裤状况却让人大跌眼镜:穿到变形、腰部松垮无弹性,屁股后面甚至出现破洞,这样的景象已然屡见不鲜。更有些男士的内裤,中间一个…

【Pandas】可视化plot()参数kind

Pandas是一个强大的数据分析库,它内置了基于matplotlib的数据可视化功能,使得直接在DataFrame和Series上进行绘图变得非常方便。在pandas中,.plot()方法允许用户通过kind参数灵活地选择多种图表类型。 导库 import numpy as np import pand…

「51媒体」江苏有哪些媒体-参会-宣发-专访-直播

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 在江苏省,媒体资源丰富,涵盖了参会、宣发、专访和直播等多个方面。以下是对这些媒体资源的详细归纳: 一、参会媒体 本地主流媒体:如无锡日…

HTTP3版本和实现验证

HTTP3协议基于Google的 QUIC 协议,由互联网工程任务组(IETF)来制定。目录还是草案,已经进行到第33版。 HTTP3 是基于 QUIC 协议的 http。传输层是UDPQUIC,应用层仍是HTTP,即request/respose, request里也仍…

学会情感化设计,让用户舍不得离开!

万物皆有个性,万物都会发出情感信号。即使这不是设计者的初衷,用户在浏览网站时也会推断出网站的个性,体验到网站的情感。 — 用户体验设计大师 Don Norman 正如设计大师唐诺曼所说,情感是我们生活重要的组成部分,情感…

Postgresql源码(135)生成执行计划——Var的调整set_plan_references

1 总结 set_plan_references主要有两个功能: 拉平:生成拉平后的RTE列表(add_rtes_to_flat_rtable)。调整:调整前每一层计划中varno的引用都是相对于本层RTE的偏移量。放在一个整体计划后,需要指向一个统一…

【区块链】记账的千年演化:从泥板到区块链

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 记账的千年演化:从泥板到区块链引言一、古代记账:泥板与…

深度学习(三)——Transforms的使用

一、Transforms的结构及用法 导入transforms from torchvision import transforms作用:图片输入transforms后,可以得到一些预期的变换 1. Transforms的python用法 写在前面:tensor数据类型 通过transforms.ToTensor去说明两个问题&#…

如何更新 iOS 18 Beta 版本?具体步骤总结

如何更新 iOS 18 Beta 想必有一些用户已经迫不及待的想要知道怎么更新 iOS 18 Beta 版本了吧,下面就给大家总结了具体的操作步骤: 在更新 iOS 18 Beta 版本之前记得我们需要将手机的数据进行备份,大家可以自行选用备份软件比如 iCloud 等。…

vb.net小demo(计算器、文件处理等/C#也可看)

Demo1:使用窗体控件实现一个简易版计算器 Public Class Form1Private Sub Button_1_Click(sender As Object, e As EventArgs) Handles Button_1.ClickCalSubBox.Text Button_1.TextEnd SubPrivate Sub Button_2_Click(sender As Object, e As EventArgs) Handles …

使用RV1126交叉编译工具链交叉编译opencv,c++代码直接调用VideoCapture 读取摄像头数据

使用RV1126交叉编译工具链交叉编译opencv,rv1126直接调用VideoCapture 读取摄像头数据 前言环境一、ubantu安装二、交叉编译工具安装三、cmake升级四、ffmpeg安装五、opencv安装六、c代码测试(上板运行) 前言 交叉编译是一种将软件在操作系统…

超详解——​深入理解Python中的位运算与常用内置函数/模块——基础篇

目录 ​编辑 1.位运算 2.常用内置函数/模块 math模块 random模块 decimal模块 常用内置函数 3.深入理解和应用 位运算的实际应用 1.权限管理 2.位图 3.图像处理 2.math模块的高级应用 统计计算 几何计算 总结 1.位运算 位运算是对整数在内存中的二进制表示进行…

Android Uri转File path路径,Kotlin

Android Uri转File path路径,Kotlin /*** URI转化为file path路径*/private fun getFilePathFromURI(context: Context, contentURI: Uri): String? {val result: String?var cursor: Cursor? nulltry {cursor context.contentResolver.query(contentURI, null…