决策大模型专题(一)

决策智能不应该停留在以前的思维中了,现在开一个专题来学习一下决策论坛的老师们的精彩的内容。本内容来自决策大模型论坛,张伟楠老师的内容整理。

决策大模型

是新一代人工智能的底层技术,它可以去赋能,智能体也就是AI agent,在数字世界当中去做出有效的决策,它也可以去赋能具身机器人,在物理世界当中做出有效的决策。

首先呢,我们主要是探讨这个,从生成到决策的一个范式的一个转变,因为我们其实这个论坛名字,叫做决策大模型,大家肯定会问说,那它和AIGC啊,在做生成式的大模型之间啊,决策大模型到底有什么样的区别呢,其实我们从机器学习入手,我们可以看得出来啊,机器学习当中其实有三类的问题啊,首先是预测问题,面向标签预测的这种有监督学习,去构建一个损失函数,然后最小化它来解决它,比如说分类、回归等等。那么第二个任务呢,叫做生成任务啊,往往是构建出一个拟合数据的这个最大化log(likelihood)这种方式,然后学到了分布之后呢,再从分布当中去采样它,背后的一个基本的一个技术呢,就是机器学习当中的无监督学习的技术,而第三部分内容呢,其实在我们人工智能当中,对于决策任务而言的话呢,在机器学习当中,也是有强化学习这样的一些工作,
预测型任务和生成式任务,还有决策式任务,生成式任务和预测型任务相似的点就在于,他们共同的拥有一个拟合数据分布的这样一个训练的过程啊,而生成式任务,它和决策式任务比较相似的一点则是,他们共同的,可以去使用模型产生出的数据,产生出的一些信号,
ChatGPT在训练的过程的这个三个阶段,则正好印证于这三个阶段,第一个阶段呢,是说我通过next TOKEN,prediction的有监督学习的损失,来去拟合出一个foundation model,这个过程呢,我们必须要将我们的学习任务,以及学习的架构本身做的非常的啊,可以scalable啊,scale up。第二个点呢,则是说我让我们的这个模型啊,比如这个GPT模型去对于一个任务呢,产生我们生成啊多个回答啊,基于这个多个回答呢,当然,我们会去做一些人工相应的标注啊,原因就是因为我们得做第三类任务啊,决策优化的任务,但是有一个关键点就在于,第二类,第二个阶段的这个标注的数据,得一定是基于啊,模型本身生成的数据啊,那么第三个阶段呢,则是通过学习好了奖励函数之后呢,在我们的这个基于奖励的这个指引下,去做强化学习啊,这样最终呢,我们chatgpt是一个实打实的一个优化决策的任务。

在这里插入图片描述

智能决策这样一个领域当中去啊,我们来啊,看看过去啊,的它的一个基基本的技术发展,在2012年以前的话,智能决策主要,使用到的一些技术,统称是类似于像是专家系统这样的一些技术,原因是要让一个决策智能真的可以工作的话,我们往往会需要有一个researcher啊,Developer,它首先在这个决策智能的任务上,他自己就是专家啊,基于这个任务的话呢,我们将这个专家的支持啊,扣银扣的在我们的模型当中啊,无论是我们的啊,搜索当中的一些价值函数,还是我们直接将这个任务,变成是一个优化问题啊,再用solver去求解它等等啊,这都是我们human得,首先成为理解这个任务的一个expert,那么基于这个export的system啊,我们可以去构建出一个,决策的一个解决方案,
那这样的一个逻辑的话,就会导致说,我们要铺啊决策智能的广泛应用,我们就得需要很多的human efforts啊,甚至是expert efforts,在这种情况下,其实是一个比较大的一个瓶颈对吧,那么这个瓶颈是如何解决的呢,在2012年的时候,2013年开始啊,deep mind提出了深度强化学习,在这个时候,智能体不需要,不需要human的一个一个expert dominology,而是说直接和环境进行交互,通过交互处的experience data,使用深度强化学习,我们就直接能够,较为自动的,去提升智能体的performance啊,
这个方法固然好,我们也是在很多游戏啊啊,这个发现一些物理结构啊啊啊,这方面去取,得了不错的效果啊,但是大家会发现,深度强化学习他在做跨任务,跨场景泛化的决策任务上,其实会碰到相当大的麻烦,原因是因为深度强化学习,他本质上是在,你和到一个动态环境当中的一个啊,我们也可以叫它漏洞,也可以叫它,就是说我可以去充分的去,exploit这个环境啊,它exploit的方法,就主要是使用的是贝尔曼最优迭代式,啊贝欧贝尔曼最优迭代式,将第二步的最大最大价值啊,引传到第一步上去,这样做的话,如果我的环境去,发生了相应的改变的话,那么这个传递,其实是将相应的一些拟合的error,往前去传,这样子,使得我们深度强化学习不太容易啊,我们说不太容易能够跨任务啊,或者跨环境去拟合啊,去做好做好泛化啊,
那么从22年开始呢,我们啊也是和世界其他团队提出说,我们有没有可能在决策这个方向上啊,提出类似于面向决策任务的大模型,因为在那个时候,自然语言处理已经在多个任务上,多个场景下啊,他都能够去使用一套模型,去做出有效的泛化,那么我们有理由相信说这一套,比如说基于Transformer这一类的模型,是有可能在多个决策任务上,去做出有效算法的,所以说在那个时候,我们开始推啊这个面向决策大模型。
在这里插入图片描述

两种范式

而到目前为止,决策模型其实已经发展成为了两种范式,范式a的话,是基于大语言模型为中心,构建出的agent,它可以去通过API的方式,调用相应的工具,去和这个user也好,去和system也好,去做出一个较为standardized的一个交互,我们叫它LLM agent,
我们首先来看一下范世a啊,张老师介绍了一些比较初级,入门级的一些一些观点啊,什么是智能体本身呢,智能体其实它是一个被,它是一个承载着啊,人工智能技术的一个实体,它可以不断的,和环境进行多轮的交互,交互是什么呢,得到环境当前的观测通过,计算呢得到具体的决策动作,进而将这个动作下达到环境当中去,得到环境的反馈,并且开始下一轮的感知决策啊,这样的交互,
这样的一种情况下,我们将大语言模型,去代替掉中间的这样一个智能体啊,去做环境的感知,去做出决策的选择的这么一个模块,当然,大语言模型智能体本身它是语言模型,它得它的输入输出,它都得是语言的token,所以说,我们往往会配上这个low level的啊,perceptor和executor,使它能够和各种各样的环境,进行交互啊,
像是大模型,它可以和我们的网网页环境进行交互,它作为一个智能体,作为个人助手,它可以去帮助我们user,去提供一些像定机票啊,去订酒店啊这样的一些服务啊,最终呢我们其实是用户心中,他其实想着是一个,我要achieve到的一个目标的状态啊,然后大圆模型通过和通过工具调用,或者通过和环境进行交互,最终啊,带这个用户走到他要的那个目标状态,我们其实user,它如果希望,能够检索到一些相应的文档的话,其实它的目标其实是达到某个status,然后通过agent的方式操作,最终我们可以走到这个status,而这个目标的status,我们完全可以是有一些别的,非信息检索的一些任务,比如说哎,我希望我家里面的冰箱里面,今天晚上出现青椒啊,那我其实是可以让我的agent,在网上去下单,去购买相应的青椒,并且送到我家里面啊,这是一种新型的一种啊,去达到某一种新的状态的,一个一种范式啊
包括我们梁一涛老师之前提到的,这个depths工作,可以让LM major和像Minecraft这样的游戏,去做相应的交互,去玩出来一些新的高度的performance啊,包括这个啊,Meta GPT啊之类的啊,通过把SOP注入到我们的啊,多正体协作的工作流当中,使得在这个协作过程当中,不要过于的发散,最终能够去协作出一个软件project,
像to former这样的任务,其实我觉得是一个啊最非常基础,但是能够产生啊,较为深远影响的工作啊,通过让agent通过大圆模型啊,它能够去呃,选择调用一些工具的API啊,然后将工具的API返回的结果呢,填充到它即将去啊,填补的这些文档的空缺的位置,最终完成一个更好的question answering啊,但其实啊,不止是question answering,它其实也是完全可以进一步的,将吐出来的这样一些文字啊,这些信号,再次去应用到下一步的这个决策,迭代当中去,去解决更加复杂的相应的问题啊,
所以说呢,我们其实LMH呢,他自己本身,还是可以去产生一些思维的,推理的因为我们做action的时候呢,大家可以发现,我们定义action本身,其实定义的是,它和环境可以直接进行交互的,改变,这个环境的信号我们叫action对吧,那如果说我产生一些信号,他不deliver到环境当中去,就在就像我们脑子当中产生过去的话,那么我往往叫思维吧,叫thought对吧,这thought,其实能够有助于我们进一步的,去做更加复杂的任务的推理,但是它不直接deliver到环境当中去,产生相应的影响,所以说在这将这两者结合的话,其实就会有类似于像react这样的工作,reasoning和action,都在同样一个framework下去做,输出但是呢,只有action会最终deliver到反应当中去,而reasoning中的thought,会帮助大语言模型进一步的去产生额外的一些思考啊,那么包括chain of thought,tree of thought都可以被更多的利用,
既然他有这样一个tree of thought的结构,当然可以像阿尔法go当中的MCTS,这样的一些技术,学习额外的一个价值函数啊,使得我们能够大致的知道说,往哪边去搜索啊,哪些action,最终deliver的一个后果是好的,哪些的后果是坏的,然后,在这样一个比较庞大的决策树下,可以去引导我们大语言模型,去做出相关的减枝,最终通过look ahead的技术,能够产生出啊当前可以有的更好的一个action。
在这里插入图片描述
在这里插入图片描述

第二类的范式呢,首先第一点就是说,基本上它是一个end to end 的 training,它不只是以一个已经被训练好的大语言模型为基础,更多的是,它就是一个强化学习的框架啊,然后呢,我们将强化学习当中的一些Module啊,去做出一个模型的一个更改,去完成跨任务跨环境的这样一个泛化,
在这里插入图片描述

这个范式下的话,我们往往训练的过程,就和一般的强化学习还会有所区别的,原因是因为我们既然是希望我们的,比如说一个agent,它能够在不同的任务上去做出泛化,那么往往我们训练它的一个范式,就变成了是goal condition reinforcement learning,而不是说我们是使用单一的奖励函数,它其实奖励函数源自于goal,goal怎么设计,奖励函数将会相应的被发展出来啊,
强化学习本身,它是由这么一些module构成的,像策略价值啊,等等,为什么他可以被这些model,为什么可以被大模型化啊,这行公式呢,其实是我自己呃总结出来一行公式啊,大家可以看到这公式当中呢,其实是有有这么几个模块出现,第一个模块呢,其实是我我我优化这个模型的参数啊,这第一个模块呢,其实是从某个数据分布下,我采样得到像SA这样的payer,第二个模块呢,其实是有一个类似于加码,或者是说,有一个类似于像加这个wait的,这么一个Mac的一个操作,第三个模块,其实就是啊,我去Maximus log,likely的的这么一个操作啊,大家可以看到,如果说我这个分布,是来自于专家的轨迹数据啊,那么MSA呢,有完全取义的话,那么它就是一个behavior colonial的啊,这个imitation learning的一个工作啊,如果说这个当前的这个轨轨迹数据,来自于我们当前agent交互出来的数据,并且Mac它是一个advantage function,或者是一个value function的话,那么这个gradient,它就是一个正常的policy gradient啊,它可以用类似于对,等价为PPU等等,这样相应的工作,如果这个数据本身,是一个离线的data say,采样出来的,并且我在这个过程当中再加上一些啊,conservative的regulation的话,那么它就是一个离线,强化学习的一个framework啊,所以说我们可以看到,是可以将这样的一个framework,其实啊既然它是可以以这种啊,MAXIMUM logolike可以获得的形式啊,的一个变种去做礼盒的话,我们就可以使用,类似于像sequation modeling当中的啊,MAXIMUM logolike获得的这种训练范式,只不过我们将其中的module,改成是强化学习当中的啊,基于Transformer的module啊,那这样的一些工作的话,其实也就是啊,这个我们将不同的task下的,一些专家轨迹啊,采样出来,有的时候,我们agent选择出来的一些轨迹呢,它其实是不是特别优秀的,我可能会把它毙掉,有的轨迹呢,它特别的result特别优秀,我们将啊采样下来,把它称作成专家轨迹啊,将这样的轨迹结合在一起呢,在同样的范式之下,就是上一页的那个公式,我们可以去训练一个智能体的policy,但是这种policy,我们往往统称它为通才智能体policy,它可以去完成很多的任务啊,它可以在新的task上,可能做出feel short的泛化,但是我们也不可能是说,让它这一个policy啊,能够在每一个任务上,能够去做的非常的精通啊,这个主要原因就在于是说,这个训练范式之下,如果我们只是使用behavior clone的范式它是没有价值函数的,在这种情况下,他可能只能学习的到一个比较啊,中庸偏上的一个智能体的一个模式啊,
那么这样的工作的话,其实在21年,由Berkeley提出来的decision Transformer当中,就已经啊初见端倪啊,我们其实是将这个一个upside down,Reinforce learning啊,的一个架构,用Transformer啊去给它实现了一下,将一个目标啊,其实这个return to go啊,是在它这边的一个啊,go的一个实现,它其实是一个go啊,就是说我希望接下来,能够达到怎样的一个目标,只不过呢啊,在decent Transformer当中,它使用的是我,我们agent在这个track,接下来,它可以去取得怎样的一个return啊,作为一个具体的目标,那么当场历史上给出来的那个action,则会变成监督信号啊,因为我有go,conditionary for some learning这样一个架构,所以说我们可以通过hintsight的方式,因为我目标要达到那个go,所以说当时的action,可以反而变成监督的action啊,来去直接训练我们中间的这样一个啊,策略的一个架构啊,那当这当然策略架构如果是像sober,它可以scale up的话,我们就可以往策略大模型,这个方向去走啊啊,于是一年以后,这个ghetto啊demon ghetto被提出来,这个其实也是我在22年的决策论坛上,啊已经给大家啊,讨论过的这样一个架构啊,被提出来,它使用了一套这个统一的架构啊,去在600多个任务上啊,将所有的多模态的数据,做出了tokenization,变成sequence of tokens,然后呢通过统一的,这样一个masking的一个源头啊,比如说机器啊,比如说机器人的话,它会有不同的频率啊,那么,我们就在不同的这个频率之下呢,出action的那些位置,我们要把它标标标出来,masking变成一,要去拿那个损失函数啊,要去拿那个action loss啊,比如说在对话上面的话,question这个部分是没有损失的啊,我就不拿全部mask为0对吧,在answer这个部分,全部mask变成一啊,去拿那个answer的损失还是等等啊,包括这个玩游戏啊等等也都是一样的,但是在同样的架构之下,我们就可以去训练这个GPD only啊,decoder only的这样一个transformer架构啊,那我们团队呢,也是在这个22年的下半年的时候啊,去开展了一个,对于get的一个副线工作啊,我们其实没有没有想到,会会花那么大的efforts啊,其实呃我们整个团队,大概有投入了15个学生左右啊,在800多个任务上,首先使用深度强化学习,拟合到这个任务当中的专家策略,然后再使用专家策略,去采样这个任务当中的专家轨迹,然后再选择了相应的一些数据,最终,积累了100T的这样一个专家轨迹数据,最终呢,训练出了这样一个可以同13.2亿参数,可以去同时啊,去去完成870个任务的这样一个模型啊,这个模型在这个过程当中,其实对我们而言,更多的是一个engineering的一,个积累而并不是在这个啊,这个model design方面,有任何的一个创新啊,那么最终呢,我们的这样一个模型,它是可以在类似啊question answering啊,visual language模啊QA,然后在游戏啊,在机械臂控制,在这个一些类目九口的控制环境当中,能够超过啊,达到专家策略的性能的76%啊,也还是可以的,并且在这过程当中,还有TSP这一类的啊,组合优化的文体,将这样一类的方法呢,我们其实可以用在机器,机器人的控制上面啊,呃这是我们在IC呃,ICRA2023上的一个工作啊,我们是将机器狗啊,落落上了这样一个啊,跟地形有关的Transformer模型啊,使得它能够更好地在地形上,去完成一个泛化性的学习啊,当然这个我们被称之为啊cm two real啊,dormitorization的技术啊,它就可以比较好的啊,相比于其他架构,比较好的遵循一个目标速度矢量啊,这个速度矢量,我们现在做出来的结果是,它可以全方位的去指啊,比如说我可以除了指向啊,往左往右往前往后以外,我还可以去指向,往往往往斜上方或者是斜下方啊,使得这个机器狗在走的过程当中,他还可以完成抬头或者低头的任务,一方面去看脚下的楼梯,另外一方面去抬头看到,我们现在需要让他找到门牌号啊,这样的话,他可以有更好的一个啊,上层任务的一个解决,此外呢,我们经常会控制这个机器口呢,会出现出一些关节损坏,或者关节失灵的这样一种情况,那么以前呢,这种情况出现之后呢,这狗就直接就当场就中断了对吧,那我们现在呢,会使用类似于像啊embodiment啊,wear Transformer这种架构,或者说对它去做一定程度的,一个关节失灵的一个泛化,使得我们将embodiment本身啊,Encode进当前的像,就像就像是一个condition一样的,一个架构当中去,使得他在关节失灵的情况下,仍然能够去哎,将另外三条腿啊去使用进来,能够完成一个,即使在关节失灵的情况下,我们仍然能够去完成行走的任务的,这样一个目标,除了这个,在策略上,我们去apply比较大的规模的,这种模型以外呢,我们还可以啊,在这个价值层面上去想办法scale up,其实到目前为止呢,使用在价值函数上,去使用较大规模的这种啊,工作其实还比较少啊,但是我们刚开最开始那个MCTS那一页,给大家诠释了,是说,是可以去使用一个语言模型的架构,去就跟GPT一样,它有个头出来是evaluate当前的价值啊,但是,在n to n的training的这样一个framework下,我们仍然是去思考说,如何去使用一些,可以scale up的一些framework啊,去做更好的价值函数的一个学习啊,Google这边提出来说使用,提了一个词叫queue Transformer啊,我后来才发现,Queue Transformer,其实是大家儿时看到一个动画片的,一个变形金刚的名字啊,呃他其实怎么做呢,我们想办法将多维的action,逐位逐维的action去做成序列,化啊那么这样的话,我们就可以上一个consumer,这样一个价格,在做q learning的这样一个,我们的一方面是offline的,另外一方面是q learning的啊,那么做q learning这部分当中呢,我们可以看到,如果说是action是中间的维度的话,我们就直接把它下一个维度,我们要的Max q拿过来,这是中间维度的action的TD啊和目标,如果这个维度,已经是这一个action的最后一个维度了,那么我们就直接把reward加上,下一个time step,action的第一个维度的q啊,做TD作为TD目标拿过来啊,这样做的话,其实我就将我的action,其实拆成了一个序列的过程,这个序列过程,我们套上Transformer架构啊,他有望能够更加scalable,能够他大概是看了一下有 3,500万参数,这个参数量,虽然比一般的语言模型要少很多,但其实作为价值函数而言的话,是一个非常不错的一个大的参数模型,啊然后呢,我们就因为它是离线强化学习嘛,所以说对于当时没选择出来的action,咱往往是使用,类似于像CQL那样的一个学习架构,将它的没有选择出来的action TOKEN啊,去对于当前这样一个q,往0进行学习啊,这样的话让它变得较为保守,不要走到OD啊,数据外的这个选择过程当中去啊,就是q Transformer,它的application仍然会落在,一方面是一些游戏,另外一方面是在这种机械臂的,这个操作的过,程当中去啊,然后对于环境本身,大家已经将上午也提到了这个,孙老师也提到了这个啊,世界模型啊,我们在强化学习范畴之下呢,经常会说的是环境模型啊,就是environment Dynamics model啊,丁曼的原班团队呢,其实在1年以后啊,在丁曼的这个gather出来之后,的一年以后,又提出了一篇工作,是使用啊,几乎一样的架构,但是它build的是一个environment model,它叫称之为叫Transformer Dynamics model啊,TDM这个model呢,大概是3.6亿参数啊,这个model拟合了一些比如像类目,周口这样的一些环境,之后呢它在这个环境上,去做MPC的一个action的一个选择啊,你会发现什么呢,你会发现说相比于behavior colony,一年前的ghetto这类的技术,我们一起拟合的是一个中庸的,较为偏上的generalist agent,咱不如去拟合一个generalist environment,在这个environment的一个基础之上,咱可以去做planning,这样选择出来的action,其实它会被证明说是比啊,我选择一个中庸的,你和的generalist agent policy选择出来的action,要效果会更好一些啊,此而言儿,这个方向的话呢,这个demon又发布了,这个接领啊,就是最近发布的一个工作,它使用了是视觉生成的一个信号啊,我们可以产生数秒的这样一种,像短视频的这样一个信号,基于当前的帧数,我们可以去简单的去infer说,在一个action sequence之后啊,我们这个environment去发生何种的变化,那么将这样一个叫做呃ST Transformer啊,可以和一个lightened action model,去构建出一个更好的啊,动态模型,并且能够产生啊,我可以去play这个game啊,或者说我们去可以去根据task instruction,去想象说机械臂接下来take action之后,接下来可以走到怎样的一个状态啊,然后再去对于当前的action,去做出一个啊,修复和执行这样一个工作啊,面向于这个Marty呃Marty agent方面的话,其实我们和这个呃徐索团队啊,在22年21年的时候,其实就有一个早期的工作,当然最近啊,在去年的时候被这个MIR所接受啊,这个MR正好也是我们今天看到MIR的,这个摊位啊,我们将agent之间啊,去做了一个持续上的延展啊,并且在每一帧上呢,去完成agent之间的interaction啊,这个是沿着持续展开的,March agent decision Transformer的工作,它能够被证明是说,可以在大量的离线数据之上啊,能够去训练得到一个基础的啊,March agent control the policy和act,然后呢我们可以在一些在线的,这个新的一些任务上,去做出额外的微调啊,包括actor,包括啊我们的critic啊,最终呢,能够在类似于像心计这样的任务上,能够取得更好的新环境上的,一个feel show的泛化的能力啊,此外呢我们后续也会发现,说a证与a证交互,可以将a证看成是一条序列啊,比如说有10个a证的交互,可以看成一条10个a证的,组成序列,大家可能会说,我为什么要将a证看成序列呢,啊其实也是序列,也可以不是序列,因为全松文本身它虽然叫序列模型,对吧但是它,其实它是不是一个在序列上去做啊,这个循环层的这样一个模型,所以说它只是将position encoding啊,放到了,我们的这个set的每一个elements当中去,啊所以说我们是有理由相信,将将agent本身去做出一个啊,序列化的这样一个建模,之后呢我们在允许中心化执行的,这样一个setting之下,是可以让我们所有的item的,是在每一帧,首先去计算出相互coordinate的action,然后在一起deliver到environment当中去,这样做的话,它的它的这个coordination的啊,这个架构,就会比centralized的,training d,centralized execution的这种架构会更强啊,只要我们的环境,我们的setting啊,是允许我们做中心化执行的,那么我们何不使用中心化执行的,这样一种架构呢,啊,所以说,无论是星际还是呃Google research book,呃呃Google这个footbook啊,他都可以,只要我们的呃,这个执行器满足这个相关的要求,他就可以去做出中性化的执行,那么中性化执行的话,大家就可以同时去采样,选择出相关的动作,在一起deliver到environment当中去,这样做的好处在于说,有的agent,它就可以去condition on前续,agent已经可以准备产生的action,然后再去计算,当前我这个agent应该可以产生的action,而这个过程,我们可以使用啊Transformer的架构,去对它进行一个啊sequence建模,无论是啊Critic的建模,还是每一个agent policy建模,它都可以去使用这个架构,我们称它为Marte agent transfer这个架构,这个架构在后续的一些呃,这个Benchmark当中,也是可以被,被证明说是一个SOTA级别的performance,当然这个对比的别的performance的话,也也很也很正常,原因是因为,别的算法大部分都是centralized training的,centralized execution啊,而我们这个mat呢,它其实是centralized execution的,所以说本身呢,setting也确实是要更加容易获得,coordination的能力的啊,
在这里插入图片描述

总结

好那么这两种算式,我们刚刚其实讲了一种是LM agent,它其实是基于一个pretrain好的大语言模型,去作为基础啊,然后在一些任务上去做啊,对其法人丘陵等等啊,还有另外一种任务呢,则更多的是一个端到端强化学习,只不过我们是将它的module去做的更大,更有更high capacity,这两种范式,其实,我们可以如何对它进行一个融合的,啊,其实在目前大家可能会越来越关注的,聚身智能,这个方向上,可能会得到一个融合啊,除了我我我这边提到的一个点,其实是不只是双层啊,可能是有三层架构,
当然最高的这层架构叫consciousness层呢,其实还没有太多的工作在这上面,它可能是一个1到3赫兹左右的,这样一个频率,在控制这个机器人的自主意识啊,基于此呢,我们下面会有一个3到,10赫兹左右的这个这个认知层啊,是基于我们当前的啊,vision language model或者是纯language model agent,去对于当前的任务啊,去对于当前状态去做评估,去做出认知,做出任务的规划啊,然后呢我们下底层其实会有这个啊,对于环境的感知层,和我们底层的动作的控制层啊,包括我们之前去控制机器狗,或者说控制人形机器人,它都是有一个五十赫兹以上的,这样一个啊,控制的一个频率啊,再和环境进行交互,但是这个频率,它很显然,是不可能有当前的大语言模型啊,或者是大的微信language摩托去控制的,而更多的是一些比较小的控制模型啊,它可以更好的,去和中层的这样一个认知模型,进行交互,共同完成啊,这样一个控制,此外这个这个分层架构呢,它其实不不像我们之前讲的,to use那种架构啊,to use那种架构,其实是说中间的cognation层啊,大语言模型agent它调了一个任务之后,调了一个工具之后,它在等那个工具返回的结果,它再进一步的去往后走,而这个架构,它更像是平行执行的一个架构啊,我们的low level Controller和proceptor,一直在执行啊,直中间呢,我们再以一个更加低的频率呢,再去调接下来的这个,中层的一个任务的推理,或者是分解啊,在人形这边呢,其实我们会有一个更加明显的体现啊,其实大家可以基本上啊,看到现在目前为止,人形机器人他做的一些主要的工作,主要demo其实分为两部分,第一部分就是类似于啊,这个open AI figure one的这样一种结构,就是说它其实更关注的是一些啊,智能的任务,包括和人去直接进行沟通,能够对于任务进行拆解,但是它的action,大家可以看到都是接近于静态的action,什么意思,就是说我以最慢的速度执行,我也仍然能够执行下来啊,叫做静态的action,而另外一类任务呢,则更多的关注机器人的agility,就是它的灵活度,比如说以语数,或者Boston Dynamics为代表的这种机器人,这是真机视频啊,不是虚拟视频啊,这个它是做了一个后空翻的,这样一个纯电机的机器人,它首先是在模拟环境当中去使啊,使用深度强化学习,训练出了一个啊翻,翻空翻的这样一个policy,再通过SIM to real transfer,再到现实当中去啊,完成这个现实当中的,这个运动的一个控制啊,所以说在这两方面大家可以看到,其实呃,open AI的这样一个figure one机器人,就是中层的corporation架构,而这个语数,或both Dynamics的一些agility级别的控制,则是低低层的,这个非常高频的这样一个控制架构,而这两者智能,将会在非常快的速度之内,我们相信,它可以去完成一个范式的融合,好那么这就是我今天的分享,
我认为呢,决策大模型,是打造通用决策智能体的基础能力啊,它是我们新一代人工智能的底层技术,啊,然后他我们目前呢大致看到了两类的,范式的一个技术,包括,使用基于大语言模型做额外微调的,这样一种AIA技能的一个范式,以及啊通过end to end training啊,使用大的强化学习模块的这样一种啊,延展式的范式,这两者的融合呢,可能会在这个智能体的多层啊,通用决策智能体的多层上面,去完成一个相互的融合,能够为我们接下来的智能决策的,打开一个新的技术的一个通路,以上就是我的汇报啊,

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/571004.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++进阶:map与set容器的使用

目录 1. 关联式容器map与set2. set与multiset的接口与使用2.1 set的接口与使用2.1.1 成员函数2.1.2 迭代器2.1.3 容量相关2.1.4 修改相关 2.1.5 查找,计数与补充2.2 multiset的接口与使用 3. map与multimap的接口与使用3.1 map的接口与使用3.1.1 map的使用补充3.1.2…

小孩子不懂事,写着玩的

目录 Web攻防 特有漏洞 ASP安全 ASPX(.NET)安全 PHP安全 JavaWeb安全 JS,Node.js安全 Java安全 Python安全 通用漏洞 SQL注入 MySQL-root高权限读写注入 PostgreSQL-高权限读写注入 MSSQL-sa高权限读写执行注入 SQL注入体系 o…

QWidget 类

QWidget 类中包括框架的属性 QWidget 类中不包括框架的属性 总结:可使用以下两种方法设置部件的位置和大小 ①、通常使用 move()设置部件的位置,使用 resize()设置部件的大小。 ②、使用 setGeometry()函数同时设置部件的位置和大小。 ③、无法为部件指定包含边框在内的大…

C语言操作符和关键字

文章目录 操作符单目操作符sizeof(类型)强制类型转换 关系操作符、逻辑操作符、条件操作符逗号表达式 常见关键字typedefstaticstatic修饰局部变量static修饰全局变量static修饰函数 register寄存器关键词define定义常量和宏 操作符 单目操作符 C语言中…

echarts bar图表实现多个label显示

2024.0.23今天我学习了使用bar组件,可以渲染多个label显示的效果,如: 当我们有一个这样的图表时,根据需求需要在 这上面的顶部再显示一个空置床位数占用床位数的合计总值,如果直接添加一个label肯定是不行,…

深度学习-线性代数

目录 标量向量矩阵特殊矩阵特征向量和特征值 标量由只有一个元素的张量表示将向量视为标量值组成的列表通过张量的索引来访问任一元素访问张量的长度只有一个轴的张量,形状只有一个元素通过指定两个分量m和n来创建一个形状为mn的矩阵矩阵的转置对称矩阵的转置逻辑运…

[MYSQL索引优化] 分页查询优化

这里一共介绍两种常见的分页索引优化技巧,let go! 示例表: CREATE TABLE t_product (id int(0) NOT NULL,pname varchar(200) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,price double(7, 2) NULL DEFAULT 0.00,promoteSales varchar(200) CHARA…

Linux进程详解三:进程状态

文章目录 进程状态Linux下的进程状态运行态-R阻塞态浅度休眠-S深度睡眠-D暂停状态-T暂停状态-t 终止态僵尸-Z死亡-X 孤儿进程 进程状态 进程的状态,本质上就是一个整型变量,在task_struct中的一个整型变量。 状态的存在决定了你的后续行为动作。 Linu…

DRF: 序列化器、View、APIView、GenericAPIView、Mixin、ViewSet、ModelViewSet的源码解析

前言:还没有整理,后续有时间再整理,目前只是个人思路,文章较乱。 注意路径匹配的“/” 我们的url里面加了“/”,但是用apifox等非浏览器的工具发起请求时没有加“/”,而且还不是get请求,那么这…

C++字符串中单词的提取以及按符号分隔

句子中的单词提取利用stringstream即可 如果要分割需配合getline使用 两者前提都是要先转化为字符串流。

Linux套接字编程详解

Linux套接字编程 预备知识IP地址和MAC地址套接字结构网络字节序 UDP套接字编程服务端代码客服端代码 TCP 套接字守护进程 计算器模块1 日志头文件序列化和反序列化 预备知识 IP地址和MAC地址 MAC地址用来在局域网中标识唯一主机 Ip地址用于在广域网中标识唯一主机 &#xff0…

李廉洋:4.24-4.25现货黄金,WTI原油区间震荡,走势分析。

黄金消息面分析:金银近日回调。随着伊朗方面淡化以色列最新反击,中东地区局势没有进一步发酵下,风险溢价下降金银出现较大幅度调整。由于近期高于预期的通胀数据,降息预期持续降温。昨日疲软的美国PMI以及以色列在加沙攻击的加剧支…

【Unity】AssetBundle加载与卸载

unity官方apiAssetBundle-LoadFromFileAsync - Unity 脚本 API 异步加载AB包 using UnityEngine; using System.Collections; using System.IO;public class LoadFromFileAsyncExample : MonoBehaviour {IEnumerator Start(){var bundleLoadRequest AssetBundle.LoadFromFil…

消息服务应用1——java项目使用websocket

在当前微服务项目中,由于业务模块众多,消息服务的使用场景变得异常活跃。而WebSocket由于其自身的可靠性强,实时性好,带宽占用更小的优势,在实时通讯应用场景中独占鳌头,加上HTML5标准的普及流行&#xff0…

OpenCompass 大模型评测实战——笔记

OpenCompass 大模型评测实战——笔记 一、评测1.1、为什么要做评测1.2、如何通过能力评测促进模型发展1.2.1、面向未来拓展能力维度1.2.2、扎根通用能力1.2.3、高质量1.2.4、性能评测 1.3、评测的挑战1.3.1、全面性1.3.2、评测成本1.3.3、数据污染1.3.4、鲁棒性 二、OpenCompas…

java-junit单元测试

问题 Junit框架 代码 工具类 // 工具类 public class StringUtils {// 获取字符串的最大下标public static int getMaxIndex(String str){// 这个地方是有问题的,应该是str.length() - 1 也没有进行str是否为空的判断return str.length() ;} }测试类 测试类类名&…

vcontact2:病毒聚类(失败)

Bitbucket 安装 mamba create --name vContact2 biopython1.78 mamba install -c bioconda vcontact20.11.3vim ~/envs/vContact2/lib/python3.9/site-packages/vcontact2/exports/summaries.py 把 np.warnings.filterwarnings(ignore) 改成 import warnings warnings.filte…

递归、搜索与回溯算法:FloodFill 算法

例题一 算法思路: 可以利⽤「深搜」或者「宽搜」,遍历到与该点相连的所有「像素相同的点」,然后将其修改成指定的像素即可。 全局变量: int dx[4] { 0,0,1,-1 }, dy[4] { 1,-1,0,0 }; int m, n; int precolor;//记录原先的颜色…

【Linux】日志分析与管理

作为一个运维,如果不会看日志,就好比是冬天刚刚用热水泡完了脚,接着就立马让人把水喝掉。 目录 一、Inode介绍 1.1 什么是inode 1.2 inode表内容 1.3 查看inode号的方式 二、日志分析 2.1 日志的用途 2.2 日志的分类 2.3 日志级别 2…

Flink学习(七)-单词统计

前言 Flink是流批一体的框架。因此既可以处理以流的方式处理,也可以按批次处理。 一、代码基础格式 //1st 设置执行环境 xxxEnvironment env xxxEnvironment.getEnvironment;//2nd 设置流 DataSource xxxDSenv.xxxx();//3rd 设置转换 Xxx transformation xxxDS.…