目录
1AGI的关键拼图:起于大模型,终于具身智能
.2 具身智能助力AGI走进现实
3人形机器人是AGI最佳载体,业界研究进展加速
2.2 OpenAI升级迭代GPT,推动机器人“大脑”升级
2.3 Meta与CMU联手打造RoboAgent,用更少的数据训练更强的具身智能体
2.4 特斯拉打通自动驾驶的FSD算法与机器人板块,Optimus迎来新进展
3.2 大模型+机器人还在路上,AGI道阻且长
4 国内核心公司介绍
5 报告总结
6 风险提示
1AGI的关键拼图:起于大模型,终于具身智能
1.1 大语言模型百家争鸣,推动弱人工智能向通用人工智能跃升
AGI(Artificial General Intelligence),即通用人工智能,也称强人工智能(Strong AI),指的是具备与人类同等甚至超越人类的智能,能表现出正常人类所具有的所有智能行为。这种人工智能系统可以比人类更好更快地学习和执行任何任务,包括人类无法处理的任务。并且由于机器在速度、内存、通信和带宽方面的巨大优势,未来,通用人工智能在几乎所有领域都将远远超过人类的能力
《Artificial Intelligence: A Modern Approach》给出了人工智能的最新定义,即设计和构建智能体,这些智能体从环境中接收感知并采取影响环境的行动。如果以人类为中心来定义人工智能,即以人类的智能水平执行任务,那么人工智能需要感知、推理、推断、知识构建、决策和规划、学习、沟通以及高效改变和操纵环境的能力。
人工智能大致分为三个主要层次——弱人工智能(ANI)、强人工智能(AGI)和超人工智能(ASI)。与AGI相比,传统的基于中小模型的弱人工智能聚焦某个相对具体的业务方面,采用相对中小参数规模的模型以及中小规模的数据集,然后实现相对确定、相对简单的人工智能场景应用。
AGI技术实现突破,离不开LLM大模型和多模态能力,在两者结合下,AI具备了创造力。
大语言模型(LLM)是一种基于深度学习技术的大型预训练神经网络模型,与传统机器学习相比,LLM具有更强的泛化能力,在复杂任务理解、连续对话、零样本推理等方向有了突破进展。但大语言模型还不符合通用人工智能的要求:(1)处理任务方面的能力有限,LLM只能处理文本领域的任务,无法与物理和社会环境进行互动;(2)不具备自主能力,它需要人类来具体定义好每一个任务;(3)不具备理解人类价值或与人类价值保持一致的能力,即缺乏道德指南针。
因此,单靠LLM是无法实现AGI的,需要让模型接触到更多的模态数据。每一种信息的来源或者形式,都可以称为一种模态,例如人有触觉、听觉、视觉等。多模态,即从多个模态表达或感知事物,而多模态机器学习,指的是从多种模态的数据中学习并且提升自身的算法。
基于Transformer的ChatGPT出现之后,之后的AI大模型基本上都逐渐实现了对多模态的支持:首先,可以通过文本、图像、语音、视频等多模态的数据学习;并且,基于其中一个模态学习到的能力,可以应用在另一个模态的推理;此外,不同模态数据学习到的能力还会融合,形成一些超出单个模态学习能力的新的能力。
萌芽期是以CNN为代表的传统神经网络模型阶段;探索沉淀期是以Transformer为代表的全新神经网络模型阶段,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升;迅猛发展期是以GPT为代表的预训练大模型阶段,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。
尽管AGI仍处于发展早期,但其已在包括文字、代码、图像、语音、视频等诸多领域和场景实现应用。目前,以谷歌、微软为代表的国际科技巨头和以百度、阿里等为典型的国内互联网集团纷纷押注大模型研发,旨在以更广的数据及语料规模驱动AGI更广泛的商业化落地。据红杉资本预测,AGI有望提升10%人类生产力,或产生数万亿美元的经济价值。
.2 具身智能助力AGI走进现实
具身智能是迈向通用人工智能(AGI)的重要一步。具身智能 (Embodied AI) 指的是有身体并支持物理交互的智能体。简单来说,就是让AGI从数字世界走向实体世界,落地在机器人、机械臂、无人车、无人机上,让实体世界中的机器人或仿真人具有智能,像人一样与环境交互感知,执行各种各样的任务。
在基于Transformer的大语言模型浪潮带领下,微软、谷歌、英伟达等大厂,以及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究。
微软基于ChatGPT的强大自然语言理解和推理能力,生成控制机器人的相关代码;英伟达VIMA基于T5模型,将文本和多模态输入交错融合,结合历史信息预测机器人的下一步行动动作;谷歌具身智能路线较多,包括从PaLM衍生来的PaLM-E,从Gato迭代来的RoboCat,以及最新基于RT-1和PaLM-E升级得到的RT-2;苹果内部已经建立了大语言模型Ajax,并推出了一个被称为Apple GPT的内部聊天机器人来测试其功能。
斯坦福大学李飞飞团队研究指出,通过大语言模型加视觉语言模型,AI能在3D空间分析规划,指导机器人行动,其最新研发成果VoxPoser可以在没有额外数据和训练的情况下,将自然语言指令转化为具体行动规划;加州大学伯克利分校的LM Nav,则通过视觉模型、语言模型、视觉语言模型 CLIP等三个大模型,让机器人在不看地图的情况下按照语言指令到达目的地。
国内具身智能的相关研究也正持续推进。达闼机器人在世界人工智能大会上发布了首个机器人领域的多模态人工智能大模型“RobotGPT”,能使接入云端大脑的机器人基于人工反馈的强化学习而不断提升学习能力,实现机器人理解人类语言,自动分解、规划和执行任务,进行实时交互,完成复杂的场景应用,推动具身智能的自主进化,让云端机器人成为通用人工智能的最佳载体。智元机器人团队实现了自然语言端到端到机器人的映射,可以用自然语言让机器人编排整个任务,还能动态调整任务。
3人形机器人是AGI最佳载体,业界研究进展加速
2.1 从RT-1到RT-2,谷歌演进式打造全能机器人大脑
2017年提出的Transformer架构是大语言模型(LLM)的最底层的基座,但Transformer不止可以应用于大语言模型中,也可以用于训练其他类型的数据。
在大语言模型(LLM)中,语言被编码为向量,研究员们为模型提供大量的语料,使其具备上下文学习、指令遵循和推理等能力,借此生成语言回答。
而在视觉语言模型(VLM)中,模型可以将图像信息编码为与语言类似的向量,让模型既能理解文字,又能以相同方式理解图像。研究员们为模型提供大量的语料和图像,使其能够执行视觉问答、为图像添加字幕和物品识别等任务。
视觉和语言数据属于被动数据,可由人类提供,而机器人的动作数据属于主动数据,来源于机器人自身,获取难度大、成本高。
RT-1是迈向视觉语言动作(VLA)模型的一个尝试,它的数据集包含了视觉、语言和机器人动作三个维度,但RT-1的能力很大程度上由数据集和任务集决定,对新指令的泛化仅限于以前见过的概念的组合,且要进一步扩大数据集规模是一件非常困难的事。
通过从大型的、多样化的、与任务无关的数据集中迁移知识,现代机器学习模型能够以较高的性能解决特定的下游任务,但这种能力在机器人领域仍有待进一步的应用考证。
主要的挑战有两点:
1)缺乏大规模和多样化的机器人数据,这限制了模型吸收广泛机器人经验的能力;
2)泛化能力不足,缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。
2022年12月,谷歌推出了RT-1(Robotics Transformer 1),有效应对以上两点挑战,推动机器学习在机器人领域的应用。RT-1建立在Transformer架构上,它能从机器人的相机中获取图像历史记录同时将以自然语言表达的任务描述作为输入,通过预训练的FiLM EfficientNet模型将它们编码为token,然后通过TokenLearner将大量标记映射到数量更少的标记中,实现标记压缩,最后经Transformer输出动作标记。动作包括手臂运动的7个维度(x、y、z、滚动、俯仰、偏航、打开夹具),移动底座的3个维度(x、y、偏航),以及在三种模式(控制手臂、底座或终止)之间切换的1个离散变量
RT-1通过吸收大量的真实数据,让机器人胜任不同环境下的多种任务,从而提升机器性能和泛化能力。RT-1是在一个由13台机器人历时17个月收集的包含13万个事件和超过700个任务的大型真实世界机器人数据集上训练而成的。
RT-1的性能优于之前发布的基线,能够以97%的成功率执行700多条指令,并能有效地泛化到新的任务、对象和环境中。此外,RT-1可以成功吸收来模拟环境和其他机器人的异构数据,不仅不牺牲在原始任务上性能,还提高了对新场景的泛化能力。
2023年7月28日,Google DeepMind推出全球首个控制机器人的VLA模型RT-2(Robotics Transformer 2),可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。
RT-2以两个已接受网络规模数据训练的视觉语言模型(VLM)PaLM-E和PaLI-X为支柱,相当于赋予机器人规模足够大的数据库,使其具备识别物体和了解物体相关信息的能力。
进一步,RT-2还使用了RT-1的数据集进行联合微调,通过加入机器人动作数据进行训练,使其具备动作执行能力。
具体来说,研究人员将机器人的动作表示为另一种语言,可以将其转换为文本标记,并与互联网规模的视觉语言数据集一起进行训练。在推理过程中,文本标记被去标记化为机器人动作,从而实现闭环控制。
通过将视觉语言模型与机器人操作能力结合,将网络规模预训练的VLM在语义和视觉上的泛化、语义理解和推理等能力有效转移,实现机器人版ChatGPT。
因而在泛化能力之外,RT-2还具备三个涌现能力:
1)推理(Reasoning): RT-2的核心优势,要求机器人掌握数学、视觉推理和多语言理解三大技能;
2)符号理解(Symbol understanding):能将大模型预训练的知识,直接延展到机器人此前没见过的数据上;
3)人类识别(Human recognition):能够准确识别人类。
具有思维链推理能力的RT-2能够执行更复杂的指令。研究人员对 RT-2的一个变体与PaLM-E进行了微调,并对数据进行扩充,增加了“计划(Plan)”步骤,该步骤首先用自然语言描述了机器人将要采取的行动的目的,然后是实际的行动符号。
定性结果表明,具有思维链推理能力的RT-2能够执行更复杂的指令,因为它可以先用自然语言规划自己的行动。
2.2 OpenAI升级迭代GPT,推动机器人“大脑”升级
GPT(Generative Pre-Training)是OpenAI于2018年推出的第一代生成式预训练模型。此前,NLP任务需要通过大规模数据集来进行有监督的学习,需要进行成本高昂的数据标注工作。GPT通过将无监督的预训练和有监督的微调结合,为NLP任务提供一种普适的半监督学习方式。
GPT-4是 OpenAI 发布的最新GPT系列模型,是目前最强的文本生成模型。它是一个大规模的多模态模型,可以接受图像和文本输入,产生文本输出。GPT-4突破纯文字的模态,增加了图像模态的输入,具有强大的图像理解能力,复杂任务处理能力大幅提升,同时改善幻觉、安全等局限性,其能力已在各种专业和学术基准上表现出了人类的水平。
2023年9月25日,OpenAI宣布推出GPT-4V(ision),新增语言、图像交互功能。GPT-4V的开发完成于2022年,并在2023年3月开始提供早期体验。GPT-4V的训练策略与GPT-4保持一致,首先采用大量的文本和图像资料进行初步训练,随后通过人类反馈的强化学习进行细化调整。训练后的GPT-4V允许输入图像、子图像、文本、场景文本和视觉指针,展现了指令遵循、思维链和上下文少样本学习等学习能力。
同时,OpenAI正式官宣ChatGPT升级为多模态通用大模型。多模态ChatGPT 的主要更新点包括:(1)图像分析:升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容,并根据图像信息进行响应。(2)语音处理:增加了语音交互功能。其语音识别采用OpenAI的Whisper模型。对于语音合成功能,OpenAI采用新颖的“文本转语音模型”。(3)推理能力:较之ChatGPT,GPT-4能解决逻辑更为复杂的问题。
类GPT技术为机器人带来最核心进化是对话理解能力。具备了多模态思维链能力的GPT-4模型具有一定逻辑分析能力,已经不是传统意义上的词汇概率逼近模型。此外,在机器人研发和制造环节,类GPT技术也促进机器人研发制造环节效率提高。机器人接入GPT的可以粗略分为L0~L2三个级别:
GPT-3、GPT-3.5以及GPT-4发布之后,Engineered Arts便将它们接入到了Ameca机器人的“大脑”中。有了GPT-3/3.5的Ameca可以像专家一样与工程师们谈笑风生,也能快速对答网友的提问,而不再是此前实验室里只会做20多种丰富表情的仿生机器人,它有了自主性。而有了GPT-4意识能力加持的的Ameca已经可以通过丰富表情来让人类形成多层对话意图的理解,成功从一个快问快答急于表现的“聪明人”,变成了一个深邃娓娓道来的“智者”。
英伟达基于GPT-4打造Eureka,可自动训练实体机器人的动作指令,具备零样本生成、编写代码和语境改进等能力,可对强化学习的奖励设计流程、代码进行大幅度优化,达到人类专家级水平。
Eureka利用GPT-4生成出的奖赏设计方案可助力机器人的试错(trial-and-error)学习,并能够起到接替80%人类专家的任务,从而使机器人平均训练效率提升超过50%。
并且,在Eureka生成奖赏设计方案时,开发者不需要额外输入任务提示或撰写预定义的奖赏范本,只需结合人工修正奖赏使机器人动作更符合开发人员的意图。
2.3 Meta与CMU联手打造RoboAgent,用更少的数据训练更强的具身智能体
ChatGPT获得巨大成功后,OpenAI已然奔向下一个目标——AI Agents(智能体)。无独有偶,Meta也看到了AI Agents的机会。今年3、4月份,Camel、AutoGPT、BabyAGI、西部世界小镇等多个AI Agents产品陆续推出。
AI Agents可以定义为基于LLM驱动的Agent实现对通用问题的自动化处理。AI Agents代替人类与GPT等大语言模型(Large Language model, LLM)进行反复交互,只要给定目标,它便可以模拟智能行为,自主创建任务、重新确定任务列表优先级、完成首要任务,并循环直到目标达成。LLM主要是一个被动的工具,但AI Agents可以在没有人类控制的情况下独立运行。通过接入API,AI Agents甚至可以浏览网页、使用应用程序、读写文件、使用信用卡付款等等。
从架构来说,AI Agents就是以LLM为大脑,再赋予任务规划能力、长短期记忆力、工具使用能力,即可实现自动化处理更复杂的任务。通过建立思维链来实现模型的连续思考和决策,AI Agents可以分析复杂问题,并将其拆解成简单、细化的子任务。
“RoboAgent”是被来自Meta、CMU的研究人员用了2年的时间打造出的通用机器人智能体,突破了缺乏足够庞大的数据集来训练通用智能体和缺乏能够生成此类数据的通用智能体的困境。
研究员们将重点放在开发一种高效的范例上,能够在实际数据有限的情况下训练一个能够获得多种技能的通用智能体,并将这些技能推广应用于多样的未知情境。
为实现这一目标,Meta和CMU开发了一个高效的系统——MT-ACT,即多任务行动分块转换器(Multi-Task Action Chunking Transformer)用于训练通用机器人。
该系统的核心原理是,在现有机器人经验的基础上创建一个多样化的语义增强集合来倍增离线数据集,并采用一种具有高效策略表示的新型策略架构,以在数据预算范围内恢复高性能策略。
在MT-ACT加持下,RoboAgent能够在6大活动情景,38个任务中,实现12个操作技能,能力泛化可达到100种未知场景。
RoboAgent 基于两个关键的阶段来学习低数据环境下的通用策略。它利用来自基础模型的世界先验知识来避免模式崩溃,并采用一种能够摄取高度多模式数据的新型高效策略表示法。
(1)语义增强(Semantic Augmentations):RoboAgent通过对RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。由此产生的数据集可在不增加人类/机器人成本的情况下,将机器人的经验与世界先验相乘。
(2)高效的策略表示(Efficient Policy Representation):由此产生的数据集具有高度的多模态性,包含丰富多样的技能、任务和场景。Meta和CMU将动作分块适应于多任务设置,开发出MT-ACT——一种新颖高效的策略表示,既能摄取高度多模态的数据集,又能在低数据预算设置中避免过度拟合。
从数据集RoboSet出发,经过数据/语义增强处理,进而经由MT-ACT策略处理,便是RoboAgent的核心原理。下面对各个部分和步骤进行详细介绍。
用于训练RoboAgent的数据集RoboSet (MT-ACT)仅包含7500条轨迹,比RT-1少18倍。该数据集由在商品机器人硬件(配备Robotiq夹具的Franka-Emika机器人)上使用人类远程操作收集的高质量轨迹组成,涉及多个任务和场景。RoboSet(MT-ACT)涵盖了几个不同场景中的12种独特技能。
收集该数据集的方法是将日常厨房活动(如泡茶、烘焙)划分为不同的子任务,每个子任务代表一种独特的技能。该数据集包括常见的拾取-放置技能,也包括擦拭、盖盖子等接触性较强的技能以及涉及铰接物体的技能。
机器人数据+语义增强满足训练场景和数据多样性需求。一般来说,有用的机器人操纵系统需要能够处理分布以外的场景(例如不同的家庭和办公室)。研究人员使用两种场景增强技术——增强交互对象和增强背景,来使数据倍增,泛化到有不同的背景和不同交互对象的场景。同时,基于最近在分割和局部重绘模型方面取得的进展,研究人员从互联网数据中提炼出真实世界的语义先验,以结构化的方式修改场景,进一步满足训练对场景和物体多样性的需求。
MT-ACT策略架构设计是一个有足够容量的Transformer的模型,可以处理多模态多任务机器人数据集,也是RoboAgent的核心架构。
2.4 特斯拉打通自动驾驶的FSD算法与机器人板块,Optimus迎来新进展
特斯拉的FSD是指全自动驾驶系统,包含多个传感器、计算能力较强的计算机、先进的人工智能技术和算法,以及相应的导航和地图数据等组成部分,使得车辆在各类交通环境中具备感知、决策和控制的能力。而特斯拉机器人Optimus将使用与该公司电动汽车相同的FSD系统,FSD和机器人的底层模块之间实现了链接。
Occupancy Networks是特斯拉在自动驾驶汽车上的神经网络模型,这是让Optimus机器人感知并理解周围环境的重要技术,绿色代表人类,紫色代表地面,而白色则代表不重要的物品但不能碰到,暗红色则代表预设任务目标,蓝色代表的是工具,青色代表的自己身体。从演示的画面来看,在Occupancy Networks这套模型下的帮助下Optimus对环境空间有着相对精准的识别能力,通过基这套神经网络模型的学习和训练,Optimus就能清楚的知道自己位置,具备分析与执行的工作能力,包括即将需要去做的工作,如何完成工作等。
2023年9月24日,特斯拉 Optimus 迎来了新的进展,它可以自主地对物体进行分类了。其中的亮点是神经网络完全端到端训练:输入视频,输出控制,这类似于特斯拉自动驾驶FSD V12开发中的神经网络训练——处理所有输入信号,输出驾驶决策。精确的校准能力使Optimus更高效地学习各种任务,并且仅使用视觉,其神经网络完全实现了on-board运行。
这样一来,Optimus可以完全自主地将物体按颜色进行分类。团队资深软件工程师Julian Ibarz表示只需要收集更多数据,则无需更改任何代码就可以训练新的复杂任务。Optimus并没有聚焦高爆发力、高动态扭矩这些通用化运动问题,而是在底层逻辑和算法方面,让Optimus初步具备了识别环境空间,以及完成标定任务等工作。
此外,Optimus也展示了其基于端到端AI学习人类行为的过程,还展示了其从一个容器中拾取物体并将它放入第二个容器中。值得注意的是,操作员只是亲自完成任务,而机器人则从过程中学习,并非直接被操纵,这需要机器人看到物体、绘制出它们的3D形状、弄清楚如何更好地接近它们,然后选择合适的电机运动和角度变化抓住并抬起物体。Optimus端到端训练的神经网络可以最大限度地提升Optimus的本地安全性。它需要使用遥控器或手机暂停,而不需要集中式的控制。
Optimus在任务操作方面的先进性已初露锋芒,比起运动神经,它显露出更多“智慧”。这在很大程度上得益于特斯拉对其自动驾驶技术的复用,它加快了人形机器人的技术迭代速度。马斯克曾表示,机器人所采用视觉算法、计算芯片、电池均与特斯拉汽车产品线共用。他强调现在是推进研发人形机器人的绝佳机会,因为可以共享大量自动驾驶领域的软硬件技术成果,认为自动驾驶的本质其实就是机器人。
人工智能大模型的语言处理能力可以被看作“大脑”,若想真正发挥通用人工智能的力量,未来的AGI需要有具身实体,让它能够和真实物理世界交互,完成各种任务,如此才能让技术带来更大价值。据图灵奖获得者姚期智所言,打造一个有泛应用能力的通用机器人,既要让它具备人类这一具身智能体所具备的身体、小脑、大脑三个主要成分,还要让它更适应人类社会环境,人形是最合适的形态。
目前进展最大也最有可能跟机器人深度结合的是大语言模型(LLM),有助于实现任务级编程/交互。只需要告诉机器人它要做的任务是什么,机器人就会理解需要做的事情,拆分任务动作,生成应用层控制指令,并根据任务过程反馈修正动作,最终完成人类交给的任务。整个过程基本不需要或者仅需少量人类的介入和确认,基本实现了机器人自主化运行,无需掌握机器人专业操作知识的机器人应用工程师介入。
任务级编程或者任务级交互落地之后,机器人的使用者从工程师变成了一般用户。在大模型之前,一般只有控制和反馈环节是由计算机自动完成,前面的任务定义、拆解和机器人运动代码生成主要是机器人工程师完成。大模型并不适合做底层精确的控制,更适合做相对模糊的任务级规划,通过大模型直接生成机器人应用级代码是目前看来技术储备最多,最有可能快速落地的方向,这就降低了机器人的使用门槛。当然,靠AI完全自主生成的机器人代码可能存在不完备、不安全的问题,这时候就需要人类介入(RLHF)进行确认、修改、调优等工作。
任何一个系统对外界的影响程度取决于它的输出能力,计算机系统的输出都是虚拟的,无法对现实世界产生物理的影响,而机器人的输出包含了虚拟和物理两种能力。多输入多输出能力是通用机器人平台的基础能力,也是机器人具备从事多种多样任务能力的硬件基础,也由此构成了机器人作为物理世界平台的基础。
多模态大模型使得机器人开始理解如何合理使用多种输出能力来更好的完成任务。但语言大模型和图像大模型以及其他多模态大模型之间的知识如何映射、如何链接仍然是一个未能很好解决的难题。
3.2 大模型+机器人还在路上,AGI道阻且长
根据Stuart Russell在2023北京智源大会上的演讲,我们离通用人工智能还很遥远,仍然存在许多尚未解决的重大问题。如果说通用人工智能是一件完整的拼图,大语言模型仅仅只是其中的一块,但我们并不真正了解如何将它与拼图的其他部分连接起来,甚至还有部分缺失的拼图没有被找到。
操作安全性可分为任务级安全性与操作级安全性。任务生成的安全性指的是大模型生成的任务动作是否能很好的适应新环境和新情境,不会对环境造成破坏或者引发安全性后果,本质上是模型产出的鲁棒性问题。虽然大模型具备很强的通识能力,但是如何保证每一次生成的任务都符合彼时情境的安全规范,仍然是一个需要持续优化的问题。
除了需要常识就能解决的任务生成问题,在很多需要专业技能的领域机器人还要关注细微工艺动作是否符合安全规范,这就是操作动作的安全性。此外,机器人的发展需要收集很多数据,其中也面临很多安全隐私等方面的问题,即数据安全与信息安全。
缺乏高质量训练数据也是大模型和机器人融合需要解决的难题之一。机器人需要通过多种传感器感知环境状态,然后执行实际动作来完成任务,因此训练用于机器人的大模型需要用到大量机器人在真实世界中与环境进行交互的数据集。
相比图像和自然语言处理领域可以从网上大量获取训练数据或者通过人类标注快速低成本的获取数据,可用于训练机器人学会执行新任务新技能的高质量数据非常匮乏。
一方面是由于机器人真实数据收集效率低且可能会对周围环境造成影响,另一方面是由于机器人保有量还太少。在欠缺优质数据的大背景下,仿真数据、真实机器人数据、教学视频、自然语言数据都有可能对训练机器人基础大模型有至关重要的作用。
展望未来,大模型会给机器人软件系统带来系统性的变革。随着AI大模型的发展,机器人的功能越来越多,机器人软件化的定义将愈加明显,机器人公司的软件能力和服务将成为新的评价指标。之前面向固定领域的工业机器人、协作机器人、移动机器人的产品形态将无法满足未来更多样任务的需求,多模态大模型必然需要多模态机器人。
4 国内核心公司介绍
考虑到以RT-2为代表的软件模型算法正在不断提升,有望加速提升通用机器人与行业机器人的可能性与迭代速度,带动下游需求的产生,并实现包括软件算法、机械组件、机器人整机等在内的产业链共振。
(1)三花智控
三花智控是全球领先的生产和研发制冷空调控件元件和零部件的厂商,有着30多年的历史经验,是全球众多车企和空调制冷电器厂家的战略合作伙伴。机器人项目与公司现有业务的核心技术同源,公司积极布局机器人产业,重点聚焦仿生机器人机电执行器业务,机电执行器是仿生机器人的核心部件。
机器人主流的两种驱动方式为电机驱动、液压驱动,其中电机驱动是使用最普遍、最成熟的驱动系统,公司机电执行器的技术研发方向就是电机驱动。公司全方面配合客户产品研发、试制、调整,设计出满足仿生机器人需求的机电执行器产品。同时,以配合客户量产为目标,积极筹划机电执行器海外生产布局。
(2)拓普集团
拓普集团自1983年创立,总部位于中国宁波,在汽车行业中专注笃行40年。集团设有动力底盘系统、饰件系统两大事业群,以及一个面向智能驾驶的独立品牌业务单元——域想智行。
集团主要生产汽车NVH减震系统、内外饰系统、车身轻量化、底盘系统、智能座舱部件、热管理系统、空气悬架系统和智能驾驶系统等产品。
拓普集团与国内外多家汽车制造商建立了良好的合作关系,主要客户包括国际国内智能电动车企和传统OEM车企等。拓普集团研发智能刹车系统IBS项目多年,在机械、减速机构、电机、电控、软件等领域形成了深厚的技术积淀,并且横向拓展至热管理系统、智能转向系统、空气悬架系统、座舱舒适系统以及机器人执行器等业务。
公司研发的机器人直线执行器和旋转执行器,已经多次向客户送样,项目要求自2024年一季度开始进入量产爬坡阶段,初始订单为每周100台。公司拆分设立机器人事业部并设立电驱事业部,实现智能汽车部件业务与机器人部件业务的协同发展。
(3)埃斯顿
埃斯顿自动化成立于1993年,经过近30年公司全体员工持续的努力奋斗,得益于公司专注于自动化完整生态链布局,长期保持年收入10%左右的研发投入,以及国际化发展构建的全球资源平台的大力支持,公司已经成功培育三大核心业务:
工业自动化系列产品,工业机器人系列产品,工业数字化系列产品。作为中国最早自主研发交流伺服系统的公司,工业自动化系列产品线包括全系列交流伺服系统,变频器,PLC,触摸屏,视觉产品和运动控制系统,以及以Trio控制系统为核心的运动控制和机器人一体化的智能单元产品,为客户提供从单轴—单机—单元的个性自动化解决方案;工业机器人产品线在公司自主核心部件的支撑下得到超高速发展,产品已经形成以六轴机器人为主,负载范围覆盖3kg-700kg, 54种以上的完整规格系列,在新能源,焊接,金属加工、3C电子、工程机械等细分行业拥有头部客户和较大市场份额。
2020年被福布斯评为“2020年度福布斯中国最具创新力企业榜工业机器人唯一上榜企业”。
(4)亿嘉和
亿嘉和科技股份有限公司是机器人智能应用服务商,致力于机器人的研发、生产和推广应用。
亿嘉和成立于1999年,并于2018年登陆A股主板,现已在中国南京、深圳、松山湖、中国香港以及新加坡、美国等地建立研发中心/分支机构,逐步构建全球化布局。
公司主要从事特种机器人产品的研发、生产、销售及智能化服务。公司以电力行业特种机器人为发展核心,通过推进实施“机器人+行业”全面发展战略,成功覆盖商业清洁、新能源充电、轨道交通等新行业领域,帮助更多行业客户实现无人化、智能化、精密化管理。
公司产品主要分为操作类机器人、巡检类机器人、商用清洁机器人、智能化系统及解决方案、消防类机器人。
(5)博实股份
博实创建于1997年,是专业从事化工、冶炼、物流、食品、饲料、建材等领域智能制造装备及工业机器人的研发、生产、销售、服务,并围绕系列产品提供智能工厂整体解决方案的高新技术上市公司。
公司拥有国家企业技术中心,是国家先进制造业与现代服务业融合试点单位、国家服务型制造示范企业、中国机器人TOP10峰会成员、智能制造系统解决方案供应商TOP10、中国最具投资价值百强企业、智能工厂非标自动化集成商百强企业、中国新经济500强企业、品牌认证五星级和全国商品售后服务达标认证五星级企业。博实系列产品覆盖国内除港、澳、台的所有省区,并出口欧、亚、美、非洲多个国家。
目前,以面向矿热炉冶炼高温特种作业机器人产品方向为例,公司针对传统电石矿热炉领域迫切的安全生产、替代人工需求,以工业机器人技术为基础,成功研发应用对替代高危恶劣环境人工作业有划时代意义的(高温)炉前作业机器人(“点”),并相继成功研发电石捣炉机器人、巡检机器人、智能锅搬运技术等关键生产作业系统(“线”),直至形成真正颠覆行业传统生产作业的智能车间整体解决方案(“面”)的科技创新能力,实现少人、无人工厂和智能制造。
这种由“点”及“线”到“面”的技术、产品研发及产业化进程,创造了由“0”到“1” 到“N 倍”的市场空间,打开了行业成长的天花板。
(6)德昌股份
宁波德昌电机股份有限公司,成立于2002年1月,是一家符合产业发展方向的规模以上企业。
10月23日,德昌股份发布公告,公司第二届董事会第六次会议于2023年10月20日召开,会议审议通过了《关于对外投资设立合资公司的议案》。
该公司计划与五家产业相关的企业进行战略合作,共同成立名为“深圳人形机器人国创中心有限公司”的合资公司,该合资公司将作为人形机器人创新中心的实际运营平台。合资公司的注册资本为6500万元人民币,其中德昌股份出资500万元,持股比例为7.69%。
5 报告总结
AGI是人工智能未来发展的方向,LLM和多模态推动AGI实现技术上的突破,“人形机器人+大模型”为AGI走进物理世界提供了更多的可能性。随着谷歌、OpenAI、Meta和特斯拉等科技大厂以及斯坦福等高等学府纷纷投入AGI的研究中,“人形机器人+大模型”将会进入发展的快车道,带动机器人软件和硬件系统的迭代升级,具有较好的发展前景。机器人整机领域的公司:如三花智控、拓普集团、埃斯顿、亿嘉和、博实股份、德昌股份等。
6 风险提示
特斯拉人形机器人量产进展不及预期。特斯拉在人形机器人上的进展对行业量产具有引领作用,但是特斯拉人形机器人降本仍然有一定压力,量产进展有低于预期的可能性。
国产化替代进展不及预期。高端丝杠国产化率较低,国产化替代为主旋律,但高端丝杠产品技术壁垒较高。
制造业景气度恢复低于预期。丝杠导轨作为自动化设备核心部件,与制造业景气度有较强相关性。