源自:系统仿真学报
作者:李志强, 李元龙, 殷来祥, 马向平
摘 要
智能无人蜂群作战系统主要由有限行为能力的大规模作战个体组成,一般不具备应对复杂战场环境和作战对手变化的适应能力。采用遗传算法与增强学习相结合的方法探索构建基于个体的无人蜂群作战系统适应性进化模型,为了提高系统适应性进化速度,提出采用个体针对型变异优化策略改进遗传算法来提高蜂群系统的学习进化效率,在复杂系统建模仿真的SWARM平台上进行仿真实验研究,验证了本文方法的有效性。
关键词
无人蜂群 ; 遗传算法 ; 适应性 ; 进化 ; 增强学习
引言
随着智能无人技术的飞速发展,智能无人蜂群作战系统以其低成本、大规模、协同作战的优势必将成为未来智能化战争的重要作战样式之一[1]。智能无人蜂群作战系统是以有限行为能力的大规模无人作战个体构成的大规模群体作战为核心的作战能力。其作战方式类似蜜蜂、蚂蚁等自然界的群居生物作战模式,故称之为蜂群作战[2]。智能无人蜂群作战系统的核心特征是组成蜂群作战系统个体的作战能力和行为模式相对简单,一般只具备局部的态势感知、信息交互和有限的作战能力[3]。因此,在面对复杂多变的战场环境和作战对手时,智能无人蜂群作战系统一般还不具备应对战场环境和作战对手变化的适应能力。
针对此问题,本文根据智能无人蜂群作战系统组成与结构特点,在前期基础算法模型基础之上,探索研究基于遗传算法与增强学习相结合的智能无人蜂群作战系统战场环境适应性进化模型,并针对智能无人作战系统作战时间的有限性,对核心遗传算法模型进行了改进以提高遗传进化速度,目的是在尽可能短的作战时间内提高系统适应性进化效率。
1 智能无人蜂群作战系统适应性进化问题分析
复杂系统中的个体,特别是具有生命特征的复杂系统中的个体,其基本特征是能够不断根据外界环境的变化来调整其内部组织结构、决策过程和行为策略等以更好地在环境中生存[4]。也就是说,组成系统的个体都具有某种适应环境的能力,从而导致整个系统也具有很强的环境适应能力[5]。作为未来智能化战争的重要作战系统之一,智能无人蜂群作战系统如果具备像生物系统一样的适应复杂战场环境能力,将大幅提升智能无人蜂群作战系统的作战效能[6]。
因此,未来智能无人蜂群作战系统也需要具备适应多变战场环境的能力。其基本特征是具有“吃一堑,长一智”的学习能力和不断适应对手变化的能力[7]。这种适应能力有2个方面:① 无人蜂群作战系统组成个体能够根据战场环境调整自己的决策规则;② 无人蜂群作战系统能够改变内部结构关系以表现出对战场的适应能力。根据智能无人蜂群作战系统的组成结构特点,重点对智能无人蜂群作战系统组成个体的适应性进化机制进行建模研究。通过组成个体的进化,研究其在宏观整体层次上的战场环境适应性进化能力问题[8]。
2 蜂群作战Agent进化设计思路
2.1 遗传算法与增强学习相结合
遗传算法(genetic algorithms,GA)是一种基于自然选择原理和自然遗传机制的搜索(寻优)算法[9]。它通过模拟自然界中的生命进化机制来达成优化目的。增强学习则是一种以环境反馈作为输入的具有适应动态环境能力的无监督学习方法,它的基本特点是通过感知环境状态和从环境中获得不确定奖赏值来学习最优行为策略[10]。这种特点决定了它非常适用于策略不能预知的问题和未知的不确定的环境。
由于智能无人蜂群作战系统的作战环境和作战对象的未知性,单纯采用遗传算法将无法获得蜂群进化目标,仅仅采用增强学习也无法得到蜂群进化能力。因此,本文基于遗传算法与增强学习的特点,采用将遗传算法与增强学习结合的思路来设计蜂群的进化模型,探索研究智能无人蜂群在未知作战环境中的进化机制,其基本策略如下:
-
(1) 将蜂群作战个体的决策偏好用遗传算法的染色体(DNA)来表示;
-
(2) 蜂群作战个体决策偏好的评价通过蜂群系统执行该偏好下作战规则的作战效果获得;
-
(3) 基于系统评价值再回到个体层面对作战个体的决策偏好进行遗传进化操作,以获得更好的决策偏好DNA。
基于上述方法,可以把增强学习看作是蜂群作战个体在其生命周期内的一种适应性的体现,而遗传算法则可以看作是蜂群整体的一种环境适应能力。
2.2 进化Agent结构模型设计
根据以上讨论,文中进化蜂群作战个体Agent基本结构如图1所示。
图1 蜂群作战Agent进化结构模型
该作战Agent进化结构模型是在反应型Agent结构模型上扩展而成。其基本组成要素除了具有反应型Agent[11]的基本模块:感知器、效应器和条件规则库以外,还加入了进化算法模块和环境反馈部分。也就是说,Agent内部的决策单元规则库,可以通过进化算法模块进行操作,而环境反馈部分则扮演了进化算法中的适应度函数的角色。其中,进化模块由增强学习Q-learning模块与遗传算法模块组成。其工作过程如下:
(1) 初始化时赋予作战Agent一定的能力和个性特征,这些参量以个体遗传因子表示;
(2) 作战Agent感知周围环境状态,并对当前状态进行分析评估;
(3) 作战遗传因子还原成决策规则,根据当前态势和决策规则进行决策,选择作战行为动作;
(4) 经过一定的时间间隔,Agent通过环境返回结果,进化算法模块对遗传因子进行评估和进化操作,调整Agent能力参数和心智特征参数,从而实现个体的不断进化。
3 进化模型算法设计
3.1 蜂群作战Agent个性向量
在蜂群作战Agent决策模型中,给每个蜂群作战Agent设定了一个可定义的个性向量集,由6个分量组成:
(1)
其中,−1≤wi≤1 ,且∑|wi|=1 。分量wi 规定了个体Agent对其感知范围内的信息做出反应的个性倾向,定义如下:
蜂群作战Agent的种类(红、蓝方),Agent的状态(攻击和防御),每个Agent可以对出现在其探测区域内的6类Agent信息做出反应:本方攻击Agent数量;敌方攻击Agent数量;本方防御Agent数量;敌方防御Agent数量;Agent的保护目标;Agent的进攻目标。其中,保护和进攻目标是指为蜂群作战Agent在作战环境中设定的某固定位置目标。如果给定一个个性向量,则确定了该Agent对这6类信息的决策偏好程度,从而驱动作战Agent在战场中协同与作战。
3.2 遗传编码策略设计
遗传算法最常见的编码方式是二进制编码和十进制编码。在本文中作战Agent个性决策偏好由6个权值的向量组成,同时考虑到各个分量的意义不在于自身取值的多少,而在于与其他分量比较的相对大小,即归一化后的结果。为了简便,采用了十进制编码方式,如图2所示。
图2 个体决策偏好向量的染色体定义
3.3 适应度函数设计
为了评估作战Agent在环境中的适应性,把作战Agent在环境中的生存时间、自身完好程度、完成任务的程度等作为评估函数要考虑的基本组成部分[12]。由于不同的作战任务的评估函数不同,本文采用最大限度的杀伤敌人和保存自己作为基本适应度目标构建适应度的基本函数,同时,根据不同的作战任务再补充相应的评估项。适应度函数的基本形式如下:
(2)
式中:wi 为各个子项的权值,需要根据不同的作战目标来确定;ax 为归一化函数,它的主要作用是把不同子项中在不同区间的值变换到(0~1)之间;t 为Agent在环境中的生成时间;health 为Agent的完好指数,它反映了Agent在战场环境中被敌人攻击情况;Nkilledenemy 为Agent杀伤敌方目标的数量;Ω 为任务完成度。任务完成度是一个全局的反馈量,它是用来评估整个参战无人蜂群系统完成任务程度的一个度量值。例如,可以设定为最大化敌我损失比:Nenemykilled /Nfriendkilled ,以最短时间占领给定目标点,尽量减少我方的伤亡,尽可能杀伤敌方,最大化占领目标区域等。
3.4 基于增强学习适应性进化策略
3.4.1 基于增强学习适应度调整
由于模型在每个作战Agent内部都内建了一个Q-learning增强学习模型,并与遗传算法模块并行工作[13]。该模型就是用来根据Agent在战场环境中的表现不断地修改染色体个体(DNA)对应的适应度值,从而为遗传操作和Agent的行为选择提供基础,其基本原理为:
假设Agent感知到外界环境状态,作战Agent将以内部染色体的群体适应度作为概率分布来选择一个染色体个体从而在个体相关变量的驱动下选择并执行一个行为Bk 。在执行该行为以后,染色体个体的适应度
将根据式(3)进行调整:
(3)
式中:ΔF 为适应度的增量值,它是通过作战Agent执行行为Bk 后返回执行效果的一个量值,通过适应度函数计算;smooth 为一个光滑处理函数,它通过调低相对较大的适应度值和调高相对较小的适应度值来对适应度进行光滑处理。在本模型设计中把它设计为一个指数函数smooth=ax ,且a<1 ,它可以把x :0~∞变换到(0~1)之间,且能对变化幅度较大的x 值进行压缩和光滑处理。
3.4.2 适应性进化过程
蜂群适应性进化过程如下:
(1) 作战Agent初始化,包括生成个性特征向量的染色体种群,设定各个染色体个体一致的适应度值,以及设定遗传算法的交叉概率、变异概率等;
(2) Agent通过扫描器感知外界环境,获得当前态势;
(3) Agent以各个染色体个体的适应度为概率分布,采用扇面角与适应度成正比的轮盘赌方法选择一个染色体个体作为决策个体;
(4) Agent以该染色体个体中的相关数据(个性向量)为基础驱动生成一个行为,并执行该行为;
(5) Agent通过环境获得行为执行的相关数据,调用适应度函数计算反馈值,并以该反馈值修正染色体个体的适应度;
(6) 一段时间以后,Agent对染色体种群进行排序和进化操作;
(7) Agent不断执行过程(2) ~ (6),从而实现不断的进化。
作战Agent的进化过程实际上就是通过进化算法获得更加适应当前战场环境的Agent个性向量(DNA)组合值,从而支撑蜂群作战系统整体适应性进化。
4 遗传算法优化设计
虽然遗传算法和增强学习相结合理论上可以满足智能无人蜂群进化模型,但遗传算法与增强学习机制的结合也具有其弱点[14]:
(1) 收敛进化速度慢。由于遗传算法需要较长时间的进化与优化,其实时性本身不强,同时又由于增强学习对策略的适应性评价需要在环境中进行不断的试错,因而总体上看,遗传算法与增强学习的结合很难保证适应的实时性。因此,在设计具体的模型中,要采取一定的措施来提高算法效率。
(2) 可能丢失部分有价值的策略与信息。遗传算法的结果是收敛在有较大共性的策略上,对于较少被探索的状态可能会在进化中被丢弃,同时变异操作也可能将这些基因改变,因此,在设计模型时还要注意遗传算法搜索的广度。
与人类系统一样,无人蜂群作战系统的决策,往往是在有限的时间和资源条件下做出的,一般很难得到最优方案,而只要相对满意即可。本文更加关注的是进化速度与方向。因此,为了提高整个蜂群作战系统的进化效率,对核心遗传操作算子进行了改进优化。
4.1 选择淘汰与交叉过程的优化
在基本的遗传算法中,在选择下一代个体时,一般采用与适应度成比例的概率决定个体被选中的机会。如果完全服从这种选择规则,在种群较少的情况下,可能会出现当代的种群中具有最大适应度的个体偶然未被选中的情况,这样会产生种群进化方向的震荡,很难向预定的解方向收敛。为了克服这类问题,在模型设计中采用2种策略来避免,如图3所示。
图3 比例淘汰与交叉增殖策略
(1) 优秀个体保留策略。保留优秀个体的策略是把当代个体中适应度最大的个体强制性地直接保留到下代种群中的方法。在这种方式下,种群中最大个体适应度的值将会随着进化过程而单调增加。
(2) 比例淘汰与交叉增殖策略。将种群中的个体按照适应度大小进行排序以后,将一定比例的劣质个体无条件地直接进行淘汰,然后再从适应度较大的个体中选择配对进行交叉产生新个体补充到种群中实现增殖。
这2种改进方法的采用可以使进化过程高速向满意解方向收敛。
4.2 个体针对型变异优化策略
遗传算法的变异操作使由交叉产生的基因具有多样性,即由变异可以产生仅由交叉不能产生的基因,使搜索的空间大一些。同时,当种群陷入局部解时,变异可以使种群具有脱离局部解的可能性。传统的变异规则大多数是让变异的概率随着进化的进程不断的变化。在本模型中,采用一种根据不同个体分别使用不同变异幅度的策略来提高遗传进化的广度,其基本原理是:对于当前种群中的高适应度个体进行小幅度的变异操作,而对于适应度较小的个体进行大幅度的变异操作。这种变异策略既可以保证不破坏高适应度个体基因型的情况下使其不断进化,同时又能利用低适应度个体的大幅度变异使搜索的空间变大,如图4所示。
图4 个体针对型变异优化策略
4.3 算法收敛性能实验分析
采用标准遗传算法的测试函数进行算法的收敛速度测试分析,测试函数为
(4)
测试函数f1(x, y) ,f2(x, y) 的图形特征如图5所示。
图5 测试函数图形特征
采用的参数如下:最优个体保留与比例淘汰交叉增值选择策略,单点均匀交叉,个体优化变异,群体规模为100,十进制编码,交叉概率0.8,变异概率0.4。图6是在SWARM平台上依据上述算法与参数的种群平均适应度刚开始随时间变化的曲线图,图7是搜索到函数最优点的种群平均适应度随时间的变化曲线图。由图6可以看出,对于f1种群收敛到4.65以上只需要15代。对于f2种群收敛到0.98以上只需要35代左右即可,可见其收敛速度还是比较快的。但是进一步运行结果发现算法要收敛到测试函数的最优解一般需要300代左右。也就是说算法刚开始的收敛速度很快,但是当快到达最优点时收敛速度明显放慢。
图6 算法前期适应度变化
图7 算法后期适应度变化
实验结果表明,采用优化策略后算法的前期收敛速度非常快,但后期要想达到算法最优解,也需要很长时间。但是,这并不与研究工作有大的冲突,因为本文关注的并非最优解。相反,在时间资源限制受限下,无人蜂群作战系统的决策方案并不需要关注最优解,只要方向正确,且相对满意即可。
5 仿真实验分析
5.1 实验运行原理与流程
智能无人蜂群作战Agent的个性向量决定了作战Agent决策偏好。因此,通过进化算法在作战过程中获取作战Agent的个性向量来实现无人作战蜂群系统整体进化,基本原理如图8所示。
图8 基于个体进化机制的蜂群系统适应性策略
由于SWARM平台的局限性[15],采用VC++与SWARM相结合的软件实现方案,系统运行过程如下:
(1) 基于VC的控制与进化程序启动,遗传算法模块生成一个红方参数种群。
(2) 控制与进化程序把方案种群进行编码,写入一个文件。
(3) 控制与仿真程序自动启动SWARM作战仿真模型程序。
(4) SWARM仿真模型程序读取文件,并用该文件中的参数初始化红方作战Agent的各种属性参数。
(5) 红方作战Agent以该属性参数为个性特征,与蓝方进行交战。
(6) 交战结束后,根据其仿真结果给出一个量化的评价,作为某一个参数个体的适应度值写回到相应的文件。
(7) 对所用的参数种群仿真完毕后,控制与进化程序判断系统是否结束,是则转入(8);否则,控制程序将读取参数种群文件,并启动遗传算法模块对种群进行遗传操作,程序转入(2)。
(8) 系统结束,并对最终的参数种群进行分析,主要分析相对较好的方案的个性特征。
图9是系统运行情况,包括SWARM数据输出、仿真过程显示、作战效果显示、控制软件等。
图9 系统运行情况
5.2 仿真实验分析
智能无人蜂群从整体上可以看是一个具有严密组织纪律的集群,在严格的规则约束下,每一个蜂群作战单元会形成一种整体上的个性特性从而决定整个作战集群在战场上的整体表现,进而影响交战的结果。在本实验中,把作战集群中所有作战Agent个性特性都用一致的参数来表示,从一个整体角度来研究作战Agent群体进化过程。
作战Agent的个性权向量决定了作战Agent个性特征,作战Agent是倾向于进攻还是倾向于防守,作战集群的整体“势气”是高昂还是低落,都能通过作战Agent的个性权向量来体现,因此,通过在作战过程中改变作战Agent的个性权向量来探索研究整个作战集群的群体进化。
5.2.1 实验方案
红蓝双方无人蜂群作战Agent数量分别为100,战场大小为100×100,红蓝双方作战集群在进攻对方目标中相遇,并发生交战行为,如图10所示。
图10 实验方案
红蓝双方的相关作战能力参数设定为:感知范围为7,火力范围为5,移动范围为2,射击命中概率为0.3。红方作战Agent个性向量参数由系统随机生成,蓝方作战Agent个性参数为:w1=10、w2=10、w3=40、w4=40、w5=10、w6=50。
由上述个性关键参数w1=10、w3=40、w6=50可以看出,蓝方作战Agent对红方作战Agent关注度(w3=40)要高于为对己方队友关注度(w1=10);对红方目标的关注度(w6=50)也远高于对己方保护目标的关注度(w5=10),因此,蓝方作战集群个性具有明显的进攻性特征。如何对付这只具有很强进攻特性的蜂群作战集群,下面通过进化实验来进行分析。
5.2.2 实验结果分析
系统运行后,红方系统经过约十几代的进化,发现红方蜂群作战Agent个性特征关键参数很快就聚集在w1=5、w3=47.3、w6=34附近,其整体适应度达到0.868,SWARM系统输出数据如图11所示。
图11 SWARM输出的DNA与适应度数据
数据对比分析表明(如图12),这是一支进攻性和协调性很强的系统,因为w1=5表明作战Agent对己方作战Agent关注程度相比蓝方更低,蓝方的w1=10;w3=47.3表明对敌方作战单元的关注程度更高,而蓝方的w3=30;w6=34这表明对敌方作战目标关注程度也要远远高于对己方作战Agent的关注程度。
图12 红蓝双方个性参数对比分析图
通过红蓝双方作战Agent的个性参数对比分析可以看出,红方作战集群通过进化获得一支能够战胜具有很强进攻性的蓝方系统并不是一件很容易的事,它要求红方作战集群具有更强的进攻性和协调性。在实验过程中,具有保守性个性特征的红方作战集群大多数被蓝方全歼。因此,通过红方作战集群中作战Agent的进化结果,可以得出:在双方作战单元作战能力大致相当的情况下,面对凶残的敌人,要战胜它们需要一支进攻性更强、协调性更好、更勇敢的系统。
6 结论
作为未来智能化战争重要作战样式之一的智能无人蜂群作战系统,具有低廉的成本,大规模的群体协同作战能力,其他作战系统不可比拟的优势。为了进一步提高智能无人蜂群作战系统作战效能,其高效适应战场环境的能力也是系统设计中需要逐步关注的重要内容之一。本文根据智能无人蜂群作战系统的组成结构特点,在理论上对系统适应性进化机制进行了建模仿真实验研究。初步研究结果表明,采用遗传算法与增强学习相结合的方法设计的智能无人蜂群作战系统个体进化模型,以及基于个体针对型变异优化策略的改进遗传算法,能够实现智能无人蜂群作战系统根据作战对手和战场环境变化的适应性进化能力。本文的研究可以为未来智能无人蜂群作战系统作战适应性能力设计研究提供参考。
本文仅用于学习交流,如有侵权,请联系删除 !!
加 V “人工智能技术与咨询” 了解更多资讯!!