论文标题:
Neural Scaling Laws for Embodied AI
论文作者:
Sebastian Sartor, Neil Thompson
导读:
大模型研究愈发火热,大语言模型的Neural Scaling Laws(神经标度律/神经缩放定律),即深度学习的误差随着训练集大小、模型大小或两者的幂数而下降也随之变得十分重要。本文是首个对具身智能(embodied AI)基础模型(RFMs)和在机器人任务中使用大语言模型(LLMs)的标度律(scaling laws)进行量化研究的工作。通过对198篇论文进行研究,分析了计算能力、模型大小和训练数据量等关键因素如何影响各种机器人任务的模型性能。研究结果证实,标度律适用于机器人领域的RFMs和LLMs,随着资源的增加,性能也会持续提高。©️【深蓝AI】编译
1. 研究背景
近年来,机器人领域取得了显著进步,特别是在可适应、通用型机器人系统的发展方面。然而,对于如何有效扩展这些系统的理解仍然不足。本文作者通过研究具身智能(embodied AI)的标度律(scaling laws)来填补这一空缺领域,主要聚焦于模型大小、训练数据量和计算资源如何影响机器人基础模型(RFM)和用于机器人的大语言模型(LLM)的性能。该研究将探究在语言和视觉等其他领域观察到的标度律是否适用于具身智能,并确定RFM和机器人LLM的特征幂律系数。此外,本文还将分析这些系数在熟悉和新颖任务间的差异,以及RFM和机器人LLM是否出现了与其他领域相似的潜在能力。
近年来深度学习的显著进步主要由scaling推动-即在增加的计算资源下训练更大的神经网络和更多的数据。这种现象可用神经网络scaling定律来描述。这一基础概念最初由JonathanRosenfeld等研究人员以及2020年的OpenAI团队提出和形式化。这一理论还建立在"痛苦教训"的基础之上,该原则强调可扩展计算在实现卓越性能方面的价值。
神经标度律(Neural Scaling Laws)在各种应用中已经证明了它的实用性。它们不仅为理解神经网络架构和数据分布如何影响性能提供了框架,而且在数据稀缺领域规划样本量方面也非常有益。总的来说,标度律有助于识别最优的scaling系数,允许基于给定输入预测性能,并估计实现所需性能的所需输入。
标度律已经在语言建模、视觉和强化学习等领域得到了广泛研究,遵循幂律函数。受transformer-based架构及其在zero-shot设置中高度泛化能力的启发,机器人研究人员开始将这些方法应用于embodied AI的物理世界,设想通用机器人并最终实现Moravec‘s悖论的终结。
传统的机器人学习方法需要为每个应用程序、机器人和环境训练单独的模型,涉及多模块系统架构。现代方法使用单一的神经网络,可以跨各种机器人、任务和环境有效地进行自适应。这种被称为RFMs的大型通用预训练网络简化了适应和实施。另一个趋势是将在互联网规模数据上训练的基础模型(如LLM和VLM)集成到机器人控制中,以提高机器人理解自然语言命令和视觉解释任务的能力。这连接了高层推理和低层控制,增强了泛化和语义推理,使机器人能够理解和生成自然语言,同时完成很多特殊的任务。
尽管取得了这些进步,但具身智能中的标度律仍然未被探索。先前的研究暗示可能存在scaling原理,但尚未进行全面量化。此外,之前的scaling laws研究的一个弱点是,它关注的指标并不直接转化为现实世界任务性能。这点特别重要,因为确定和量化embodied AI背景下的scaling laws,为开发通用机器人系统提供了关键框架。它使研究人员能够预测性能结果、更有效地分配资源,并确保在任务间的可适应性。通过了解这些原理,通过简化实验、降低成本并提高机器人研究的环境可持续性。
本研究旨在通过确定embodied AI的scaling laws来填补这一空白。
具体来说,作者将研究:
1)在计算、模型大小和数据方面,是否可以将观察到的其他领域(如语言和视觉)的标度律应用于RFM?
2)RFM和机器人中使用的LLM的特征幂律系数是什么,它们如何比较?
3)这些幂律系数在模型在训练期间见过的任务和全新(未见过)任务之间如何变化?
4)RFM和LLM是否在机器人中表现出与其他领域观察到的类似的潜在能力?
这项研究是首次全面量化embodied AI的scaling laws,满足了AI和机器人社区各利益相关方的需求。机器人研究人员可以利用这些见解来优化可适应、通用系统的设计和训练,大大减少成本和实验挑战,同时提高资源效率。理论AI研究人员将通过领域特定信息和跨领域比较,深入了解新兴行为和泛化原理。此外,该研究还可以帮助开发人员主动遵守AI法规,并协助决策者制定更有效的安全标准,类似于最近出台的标准。这种主动方法不仅可以降低风险,还可以增强社会对技术进步的准备,确保利用更强大的embodied AI系统的利益,同时最大限度地减少相关风险。大型科技公司和初创公司也可以从这些发现中获益,开发可扩展、多功能的系统,用于医疗、制造和灾难响应等领域。
2. 相关工作
2.1 具身智能(Embodied AI):
机器人领域长期面临可扩展性和成本挑战。最近出现了两种创新方法带来了范式转移。首先是使用统一的transformer-based的架构进行预训练,就像NLP中的GPT。其次是基础模型方法,将预训练的大型模型如GPT-4和PaLM-E集成到机器人中,利用其语义推理能力,将语言与物理动作相结合。这两种策略都面临数据稀缺、实时性能和从仿真到现实部署等挑战。
2.2 神经标定律(Neural Scaling Laws):
它是一种实证原理,描述模型质量与模型规模、训练数据规模和计算资源的关系。这些规律遵循幂律函数,通常以交叉熵为目标,这意味着随着模型规模和训练资源的增加,模型质量可以预期地得到改善。scaling laws已在语言模型、图像和视频生成、强化学习等机器学习领域得到广泛研究。随着模型的扩大,不仅在数量上有所改善,而且还表现出新的定性能力,被称为"突现"能力。尽管这些缩放模式提供了很高的性能改善可预测性,但这些扩展模型的具体能力通常仍然不可预测。数据约束也扮演了一定角色,限制了在固定规模数据上训练的大型模型的性能提升。scaling laws研究正在快速发展(如图1.a所示)。
图1|ScalingLaw与EmbodiedAI的研究增长趋势©️【深蓝AI】编译
2.3 具身智能的神经标定律(Neural Scaling Laws in Embodied AI):
虽然scaling laws已在语言模型和计算机视觉等领域得到研究,但在embodied AI领域的研究仍然有限。现有工作表明,计算能力、模型规模和数据输入方面的scaling现象在embodied AI中也成立,大型模型表现更好。对于机器人模型(RFMs),在计算能力、模型规模和数据方面都发现了这一现象。对于机器人中使用的大型语言模型(LLMs),发现更多参数的模型表现更好。与以交叉熵为衡量标准的生成任务AI不同,embodied AI主要依靠在模拟和现实(已知/未知)环境、物体和任务中的成功率来评判模型性能。通常,这些模型依赖于多模态数据输入,不同模型之间存在差异。
相比语言模型和计算机视觉等其他领域,研究embodied AI和机器人中的scaling laws面临独特的挑战。仅仅增加模型规模并不能保证在现实世界中的性能改善,因为推理延迟会影响成功率,而边缘计算的限制也限制了模型规模的扩大。此外,更强大的边缘计算需要更多能量,这需要更大或更多的电池。此外,数据多样性也成为关键因素,正在开发涵盖各种任务和环境的数据集。此外,摩尔定律的失效要求转向算法效率,而不是依赖于指数级的计算能力扩展。
图2|研究的动态分析©️【深蓝AI】编译
3. 研究方法
3.1 Research paper meta analysis:
这项研究对198篇来自调研论文、GitHub仓库、基准模型以及时事通讯和个性化新闻源的最新出版物的研究论文进行了元分析。分析内容涵盖了广泛的RFMs和LLMs在机器人领域的应用,涉及推理、规划、操作、指令和导航等多样化任务。这些模型从单一任务系统到通用架构(包括机器人Transformers)都有涉及,以及从工业机器人到腿式机器人的多种机器人实体,在模拟和真实环境中运行。
正如图1.b所示,首篇研究论文出现于2017年,此后到2023年出现了指数级增长,其中56%的论文在2023年发表。此外,这些研究中有相当大一部分来自于产业界和学术界的合作项目(图2.a),突显了产业在AI研究中的日益重要作用。值得注意的是,谷歌DeepMind贡献了所有发表论文的25%,成为该领域最活跃的机构,超过了斯坦福大学和加州大学伯克利分校等其他领先机构(图2.b)。
作者选择元分析是为了提高结果的可推广性和减少偏差,这在研究embodied AI中至关重要。由于元分析能够整合来自不同研究的数据,克服标准基准的缺失,并涵盖embodied AI中任务、实体、环境和设计的多样性,因此非常适合于该领域。这种方法能够提高结果的普遍适用性,通过综合不同背景下的成果,提供更准确反映现实应用的见解。此外,元分析还能有系统地减少个别研究中的偏差,这在embodied AI研究中尤为重要,因为研究设计和评估的差异可能会影响结果。
表1|scaling研究的数量©️【深蓝AI】编译
3.2 Data extraction from papers:
作者对每篇论文进行了相关性筛选,并针对各种指标进行了可扩展性研究:成功率(SR)、计算能力、数据以及模型大小(参数)。如表1所示,约21%的论文包含某种形式的可扩展性研究。其中,最常见的机器人基础模型研究涉及数据(21篇论文),其次是模型大小(8篇论文)和计算能力(1篇论文)。对于用于机器人的大型语言模型(LLMs),可扩展性研究纯粹集中在模型大小(11篇论文)。通常论文会报告多种可扩展性分析,评估模型在不同任务和输入下的性能。
关于成功率(SR),本文分析了总体性能以及在熟悉和新颖任务上的性能。跨研究,零样本泛化的概念定义各不相同,将所有实例均归类为"unseen"以确保一致性。对于未提供数值值的论文,通过联系作者寻求澄清或从提供的图表中估算值。大多数研究使用演示、轨迹和剧集作为其主要数据源。鉴于这些是唯一样本量较大的指标,本分析中呈现的所有数据量化都仅基于这些样本。相反,计算研究明显存在缺陷;只有一篇论文探讨了成功率如何随epoch数的变化而变化。利用该论文提供的硬件规格和训练持续时间细节,作者使用Epoch.ai的工具估算了训练FLOPS。FLOPS或PetaFLOP-days是比GPU-days等更精确的度量指标,用于比较AI模型训练的计算需求。
计算资源相关可扩展性研究的稀缺突出了该领域的一个重要差距。针对LLMs的前期研究表明,模型性能不仅取决于数据、模型大小或计算资源本身,而是取决于这些因素之间的相互作用。因此,本文倡导报告计算资源使用情况,并开展全面的计算可扩展性研究。
3.3 Scaling Laws analysis:
利用创建的数据集,下面方程描述的幂律对数据进行建模:
y = α x β + γ ( 1 ) y = \alpha x^\beta + \gamma\qquad(1) y=αxβ+γ(1)
其中 α , β \alpha,\beta α,β和 γ \gamma γ表示幂律系数。在该模型中, x x x代表计算、数据或模型大小。变量 y y y包括失效率(FR)%(100~SR)。在所有的系数中,是关键的,决定了系统的标度行为。该分析集中于 − 1 < β < 0 -1 \lt \beta \lt 0 −1<β<0的区制,包含了全部研究的90%范围。剩余的10%排除在外,因为它们要么随着资源的增加而表现出恶化的性能,要么因为性能恶化而具有加速的边际收益,因此不太可能主导机器人技术的未来。值得注意的是,本文的研究报告仅包括使用基于Transformer架构的研究,这些研究构成了整个研究的99%。
表2显示了拟合的幂律和线性模型 ( y = a x + b ) (y = ax + b) (y=ax+b)的 R 2 R^2 R2比较。幂律更好地逼近了实际研究数据。
表2|模型
R
2
R^2
R2值比较©️【深蓝AI】编译
图3|Scaling laws in embodied AI©️【深蓝AI】编译
4. 研究结果
4.1 Scaling Laws for Robot Foundation Models:
如图3所示,RFMs的scaling laws在计算、数据和模型大小方面分别持续两、六和两个数量级。然而,由于任务和体系结构的差异,缩放参数( α , β \alpha,\beta α,β和 γ \gamma γ)的显著变化变得复杂,这可在一项研究中涉及六个任务和四种方法的24种RFM计算scaling laws中观察到。不同领域之间的scaling laws差异也很明显,例如在具有不同像素尺寸的图像生成的功率系数(表5)。这种偏离突出了scaling行为固有的复杂性和多样性。因此,这些系数的中位数和平均值对于无通用基准的通用模型具有重要相关性。
如表3所示,幂次系数被证明是最关键的。表的上面包括所有收集的数据,下面仅包括表明资源增加与性能改善之间存在明确相关性的数据点。这种选择性方法排除了具有低 R 2 R^2 R2值的异常值,突出了尽管大多数模型遵循幂律动态,但并非全部如此。这种过滤方法有效地最小化了中值和平均值之间的偏差,增强了对缩放效率的理解。具体而言,对于RFM计算,该值跨度为-0.15(中位数)至-0.16(平均值);对于RFM数据,从-0.27到-0.30;对于RFM模型大小,从-0.38到-0.39。此外,作者还研究了这些模型在已知和未知条件下的性能。已知数据的缩放系数(-0.37)明显优于未知数据(-0.23),这加强了多样化和全面数据集在增强通用机器人效力方面的关键作用。
评估表明,90%的scaling研究展现出0到-1之间的 β \beta β值,表明存在收益递减。鉴于摩尔定律的局限性、embodied AI中的数据限制(最大数据集有250万集数以及边缘设备上的推理挑战,实现机器人领域的有效缩放是一个艰巨的挑战。
表3|幂律近似的值©️【深蓝AI】编译
4.2 Scaling Laws for LLMs used in robotics:
如表5所示,在机器人领域中,LLMs的中位数和平均 β \beta β值在-0.20到-0.26之间。相比之下,应用于语言任务的LLMs展现出-0.07的 β \beta β值。这种差异表明,与语言处理相比,在机器人领域中,性能随着额外资源的增加而有更好的扩展。未来的研究应该探究导致这种差异性扩展效果的潜在因素。
当将所有RFMs与机器人中使用的LLMs进行比较时,表3中观察到扩展系数 β \beta β没有显著的统计差异,它们展现出相似的值,并略有趋向于零的倾向。但是,仅关注 R 2 R^2 R2值较高的数据,则显示出更大的(尽管在统计上不显著)差异;RFMs的扩展效率更高,中位数 β \beta β为-0.38,而LLMs为-0.20。所选择的模型可能取决于所需的具体功能,如机器人系统中语言交互是否作为核心组成部分。
表4|Neural Scaling Laws©️【深蓝AI】编译
表5|Compute and Model Size scaling laws in other domains©️【深蓝AI】编译
4.3 Comparison of Embodied AI Scaling Laws to Other Modalities:
如表4和5所示,embodied AI的scaling laws揭示了值与图像生成和文本到图像模型观察到的类似,涉及模型大小、数据和计算指标。有趣的是,即使机器人一直被视为人工智能中最需求最大的领域之一,语言训练(传统LLM)仍然更加资源密集。这种差异可能源于embodied AI中广泛使用图像和视频输入。未来的研究应该探讨不同数据类型及其比例(语言、图像、视频、动作)对扩展效率的影响。
图4|Emergent Capabilities in embodied AI©️【深蓝AI】编译
4.4 Emergent Capabilities of Robot Foundation Models and Foundation Models used in robotics:
通过使用成功率作为性能指标(可以包括零值)来估计embodied AI的能力。如图4所示,就数据大小而言,RFMs显示出独特能力,而对于机器人中的LLM,则在模型大小方面出现独特能力。在数据输入中添加了+1,以强调在预训练期间不明显但在扩大的微调中显现出来的模型能力。虽然没有发现具体的模式,但总体趋势支持缩放在embodied AI中用于泛化的适用性。未来的研究应该明确列出模型无法执行的任务,以增强对新兴能力的研究。
5. 总结讨论
本文对embodied AI中的scaling laws进行元分析,主要聚焦在机器人领域的RFMs和LLMs方向。通过分析了近200篇论文,验证计算能力、模型大小和数据与性能之间的关系。研究结果确认了幂律最能描述这些关系,表明随着规模的增加会出现收益递减。也进一步证明了scaling laws在RFMs与视觉领域一致,不同任务也会有不同表现。
另一边,研究的局限性在于大多数scaling研究只提供了少量的规模数据点,这限制了幂律系数的精确拟合,并导致了结果的分散。此外,模型性能没有在相同的任务和复杂度下进行测量,即使是同一个模型在不同任务中也会出现显著偏差。这表明需要建立广泛认可的、通用的、开放式基准,以提供embodied AI的可比性,类似于计算机视觉中的ImageNet。同时,embodied AI研究人员还应该建立标准化的成功率指标,因为这些指标也存在差异。此外,与RFM scaling研究不同,机器人中基础模型的scaling laws并不假设可预测的Chinchilla scaling laws,即数据、计算能力和模型大小呈比例增长,这使直接比较具有挑战性。
随着embodied AI系统的扩展,安全和控制是首要关切,因为存在造成人身伤害的潜在风险。随着这些模型变得更强大,复杂性和风险也在增加,因此需要建立健全的安全协议。本文中的研究不仅认识到这些风险,还提供了积极的贡献,通过预测未来模型及其能力,帮助建立有效的安全标准,并帮助社会为这些技术进步做好准备和适应。此外,scaling AI的环境影响也不容忽视,需要采取环保的方法。最后,广泛部署具有强大能力的embodied AI代理的社会影响必须小心权衡。尽管这些系统有潜在的巨大利益,但如果管理不善,它们在就业市场、社会结构和现有权力动态方面的颠覆性影响可能会加剧不平等。
编译|巴巴塔
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。