基于深度强化学习与时间约束的低空航空器冲突解脱方法

本发明属于航空安全,尤其涉及一种基于深度强化学习与时间约束的低空航空器冲突解脱方法。
背景技术:
1、随着无人机技术的快速发展,无人机在物流配送、巡查监控、环境监测、救援等多个领域得到了广泛的应用。然而,随着不断增加的无人机数量和城市环境中复杂多变的运行条件,低空无人机面临的空中冲突问题越来越严峻。
2、冲突解脱方法在航空安全运行中扮演着关键角色,尤其是在高密度的低空无人驾驶运行。低空无人驾驶运行指在狭小的城市空域内有大量的无人驾驶航空器同时进行人或物的转移。高密度降低了航空器之间的间隔和冲突解脱的反应时间,增加了多无人驾驶航空器之间的相互影响。
3、战术冲突解脱指在无人机飞行过程中,实时监测无人机与其周围环境的相对位置,并通过动态调整飞行路径以规避可能的冲突。传统的航空器战术冲突解脱方法是以管制员和驾驶员沟通决策进行冲突解脱,但这种方式沟通决策效率太低,无法应用于低空运输场景。而现有的基于强化学习进行冲突解脱的方法侧重于最大化避免碰撞的成功率,却没有考虑达到目标位置的时间约束,到达准点率很低。若航空器不能按时到达目标位置,则会为运行计划调度带来影响,并且会与空中其他运行的航空器产生二次影响,大大增加空域管理的复杂性。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种基于深度强化学习与时间约束的低空航空器冲突解脱方法,通过在低空高密度的运行场景下,实现本体航空器与静态障碍物和非合作目标航空器间的战术冲突解脱,解决了低空航空器的冲突解脱能力和准点率不足的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:
3、本发明提供的一种基于深度强化学习与时间约束的低空航空器冲突解脱方法,包括如下步骤:
4、s1、设置静态障碍物和非合作目标航空器,以构建低空运行环境;
5、s2、构建低空运行环境中航空器的状态空间和动作空间;
6、s3、根据本机航空器与静态障碍物或非合作目标航空器间距离,以及本机航空器到达目标位置的准点时间,构建带有时间约束的奖励函数;
7、s4、根据带有时间约束的奖励函数、低空运行环境中航空器的状态空间和动作空间,基于深度强化学习模型在低空运行环境中进行低空航空器冲突解脱训练,得到训练好深度强化学习模型;
8、s5、获取本体航空器在执行实际冲突解脱任务中的当前状态,并利用训练好的深度强化学习模型输出奖励值最高时对应的动作,以避免冲突的同时及时达到目标位置。
9、本发明的有益效果为:本发明提供的一种基于深度强化学习与时间约束的低空航空器冲突解脱方法,通过构建低空运行环境,以及航空器的状态空间和动作空间,为对航空器进行冲突解脱训练提供了智能体模拟行动基础;通过构建带有时间约束的奖励函数,为训练航空器及时准确到达目标位置提供了基础;基于深度强化学习模型对航空器进行冲突解脱训练,提升了航空器冲突解脱训练的效率和准确性,也实现了航空器有效避障情况下,大幅提升到达目标位置的准点率。
10、进一步地,所述s2包括如下步骤:
11、s21、根据航空器的探测距离,以本机航空器为中心将探测区域平均划分为6个扇形探测子区域;
12、s22、分别选择每个扇形探测子区域内离本机航空器距离最近的静态障碍物或非合作目标航空器的信息作为状态输入,得到航空器的状态空间;
13、所述状态空间的计算表达式如下:
14、,
15、其中,s表示航空器的状态空间,表示目标位置,表示本机航空器的位置,表示本机航空器的速度,表示第i个扇形探测子区域内距离本机航空器最近的静态障碍物或非合作目标航空器的相对位置,表示第i个扇形探测子区域内距离本机航空器最近的静态障碍物或非合作目标航空器的相对速度,其中,i=1,2,3,4,5,6;
16、s23、根据航空器战术冲突解脱任务,构建航空器的动作空间;
17、所述动作空间的计算表达式如下:
18、,
19、其中,a表示航空器的动作空间,表示航空器的航向角变化量,表示航空器的速度变化量。
20、采用上述进一步方案的有益效果为:本发明提供构建低空运行环境中航空器的状态空间和动作空间,为航空器在低空运行环境中执行冲突解脱任务训练时的状态变化和动作变化进行约束,保障了低空运行环境的稳定性,为航空器避障准点到达目标位置提供行动约束基础。
21、进一步地,所述s3包括如下步骤:
22、s31、根据目标航空器与静态障碍物或非合作目标航空器间的距离关系,构建冲突解脱奖励;
23、所述冲突解脱奖励的计算表达式如下:
24、,
25、,
26、,
27、其中,表示冲突解脱奖励,表示距离变化奖励,表示距离最近奖励,表示距离变化奖励值,表示本机航空器与静态障碍物或非合作目标航空器间的距离变化值,表示当前时刻本机航空器与静态障碍物或非合作目标航空器间的距离,表示上一时刻本机航空器与静态障碍物或非合作目标航空器间的距离,表示距离最近奖励缩放因子,log表示对数运算,表示本机航空器与静态障碍物或非合作目标航空器间最近的距离,表示航空器的探测距离;
28、s32、根据本机航空器到达目标位置的准点时间和实际时间,构建准点时间约束奖励;
29、所述时间约束奖励的计算表达式如下:
30、,
31、其中,表示时间约束奖励,表示时间约束奖励缩放因子,e表示指数基底常数,t表示本机航空器到达目标位置时的实际时间,表示本机航空器到达目标位置的准点时间,表示奖励宽度分布控制因子;
32、s33、基于冲突解脱奖励和时间约束奖励,得到带有时间约束的奖励函数;
33、所述带有时间约束的奖励函数的计算表达式如下:
34、,
35、其中,r表示带有时间约束的奖励函数。
36、采用上述进一步方案的有益效果为:本发明根据本机航空器与静态障碍物或非合作目标航空器间距离,以及本机航空器到达目标位置的准点时间,构建了带有时间约束的奖励函数,基于有时间约束的奖励函数,能够为有效提升冲突解脱训练后航空器到达目标位置的准点率提供基础。
37、进一步地,所述s4包括如下步骤:
38、s41、构建用于存储运行数据的经验回放池;
39、s42、设置模型训练参数;
40、s43、构建基于rainbow dqn的深度强化学习模型,其中,深度强化学习模型包括用于预测下一时刻本体无人机动作的第一神经网络和用于更新目标q值的第二神经网络;
41、s44、将深度强化学习模型接入低空运行环境和经验回放池;
42、s45、根据低空运行环境中航空器的状态空间和动作空间、带有时间约束的奖励函数和第二神经网络,令本机航空器作为智能体重复在低空运行环境中进行冲突解脱训练,得到每次冲突解脱训练对应的运行数据和目标q值;
43、s46、将第一神经网络的网络参数同步到第二神经网络;
44、s47、根据带有时间约束的奖励函数,通过训练后的第一神经网络优化本体无人机在冲突训练过程中的动作,从而使得第二神经网络更新的目标q值不断增大,直至稳定趋近于期望的目标q值,得到训练好的深度强化学习模型。
45、采用上述进一步方案的有益效果为:本发明采用深度强化学习结合带有时间约束的方法,对低空航空器进行冲突解脱训练,能够使得训练好的航空器高效地完成高密度环境下战术冲突解脱,同时,还能够有效地提高航空在进行了冲突解脱后的准点率。
46、进一步地,所述s45包括如下步骤:
47、s451、设置冲突解脱训练的训练次数阈值和单次冲突解脱训练的训练时长;
48、s452、将本体航空器作为智能体设置于低空运行环境中的任意位置,并将该位置作为当次冲突解脱训练时的初始位置,并初始化本体无人机的状态;
49、s453、根据低空运行环境中航空器的状态空间和动作空间,基于当前时刻本体无人机的状态和动作,得到下一时刻本体无人机的状态,并根据带有时间约束的奖励函数和第二神经网络,对应得到当前时刻本体无人机的奖励值以及下一时刻本体无人机的状态对应的目标q值,直至本体无人机到达目标位置或达到单次冲突解脱训练的训练时长,完成单次冲突解脱训练;
50、s454、每轮次冲突解脱训练后,将单次冲突解脱训练中每一时刻的运行数据存储到经验回放池中,并从经验回放池中随机抽取若干运行数据,结合各运行数据对应时刻的目标q值,以最小化第一神经网络的预测输出与实际输出间误差为目标训练第一神经网络;
51、s455、判断本体无人机进行冲突解脱训练的次数是否达到训练次数阈值,若是则进入s46,否则返回s452。
52、采用上述进一步方案的有益效果为:本发明提供基于深度强化学习结合带有时间约束的奖励函数,对本体无人机进行冲突解脱训练方法,通过rainbow dqn强化学习模型进行决策,大大提升了稳定地有效避障并准点到达目标位置的能力。
53、进一步地,所述运行数据包括当前时刻下本体无人机的动作、状态、对应的奖励值和下一时刻本体无人机的状态,其中,智能体根据当前时刻的状态和动作,在执行完成当前时刻的动作后,得到当前时刻对应的奖励值和下一时刻智能体的状态。
54、采用上述进一步方案的有益效果为:本发明提供运行数据的具体组成,运行数据体现了航空器作为智能体在低空运行环境下的避障行为,能够为训练深度强化学习模型以提升航空器的避障能力和准点率提供基础。
55、针对于本发明还具有的其他优势将在后续的实施例中进行更细致的分析。
技术研发人员:张志远,郑远,李诚龙,顾文勇,胡潇瀚,刘旭川,肖海滨
技术所有人:中国民用航空飞行学院
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
