一种基于强化学习的地图点要素注记自动配置方法与流程

本发明属于地图,具体涉及一种基于强化学习的地图点要素注记自动配置方法。
背景技术:
1、地图被称为地理学的第二语言,其结合了数学语言的精确性和图形语言可视性的特点,是地理空间的一种数学模型化表达语言,实现了地理空间到形象思维空间的变化。地图作为一种语言,包括地图符号、地图色彩和地图注记等要素。其中,地图注记是地理要素可视化表达的重要方式之一,其配置效果直接影响地图内容表达的科学性、准确性、美观性,是影响地图可读性、增进地图使用价值的一个重要因素。地图注记的配置需要考虑地图要素压盖、注记之间压盖、注记指代清晰、全局美观等诸多因素,十分复杂、繁琐。因此,即使在数字地图制图技术、自动制图综合技术取得长足进步的今天,地图注记的设计与编绘仍然由人工最终检核完成,自动注记仍然没有得到很好解决。其中,点要素注记的自动配置问题最为复杂,已被证明是np-hard问题。
2、目前的地图点要素注记自动配置方法主要有:基于局部最优的传统方法、基于全局最优的传统方法以及基于神经网络的学习方法。基于局部最优的传统方法如模拟退火,是在地图点要素自动注记任务中,从压盖、冲突、位置优先级、位置关联性4个方面对备选位置进行综合评价,从而获得最优注记位置;基于全局最优的传统方法如蚁群算法和遗传算法等,利用算法强大的搜索能力,根据人为设定的地图点要素注记配置规则,找出注记配置的最优解。现有的神经网络方法大多为全监督学习方法,需要输入大量的人工标注的真实地图注记数据,使网络拟合到最优。该方法依赖于专业人员主观因素和从业经验,因而得到的标注数据并不能够完全符合网络的评价标准,成为网络中所谓的“噪声数据”,会影响地图注记自动配置的效果。
3、近年来,随着阿尔法狗、阿尔法零等人工智能系统的横空出世和在围棋、星际争霸等诸多领域优异表现,向我们展示了强化学习的强大魅力。强化学习,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。通过不断的训练与学习,阿尔法狗可以灵活掌握并使用围棋的下棋规则,从而可以轻松击败人类的冠军棋手。由此我们不难想象,强化学习系统通过训练与学习,可以掌握和灵活应用那些潜在的、隐蔽的规则。为此本发明提出一种基于强化学习的地图点要素注记自动配置方法。
技术实现思路
1、本发明的目的在于提供一种基于强化学习的地图点要素注记自动配置方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种基于强化学习的地图点要素注记自动配置方法,步骤一:输入内容:注记点坐标、注记长宽信息、不带注记的地图原图;
3、步骤二:评估网络评估当前注记点坐标和注记坐标的状态,给出当前状态的价值;
4、步骤三:环境收到行为网络提供的行为,根据行为来更新当前的环境状态,即更新注记点坐标和注记坐标,随后根据更新的情况来给出奖励;
5、步骤四:在反向传播中,需要根据奖励和价值更新网络参数,进而迭代训练;
6、步骤五:通过上述训练流程得到网络模型,输将注记点坐标、注记长宽信息和不带注记的地图原图输入网络模型即可得到对应注记的偏移量,偏移量加上注记点坐标即可得到注记坐标;通过注记坐标摆放注记到对应位置,即可实现注记自动配置。
7、优选的,所述步骤二中,评估网络通过注记清晰性、配置均匀性、指代明确性的配置规则进行评估;具体评估方法为:对每个注记,计算各个评估规则值的和,就是当前状态的价值,是衡量配置结果好坏的依据,结果值越小,说明配置效果越好;反之,则说明配置效果越差。
8、优选的,各个评估规则计算方法:指代明确性:注记位置与注记点的位置的距离;配置均匀性:每个注记位置到其他注记位置的距离和的负数;清晰性:每个注记范围内包含的边缘像素数量。
9、优选的,行为网络同样根据当前注记点坐标和注记坐标随机给出下一步注记坐标的移动行为,用于帮助环境更新状态;行动网络目的在于检索地图中该注记状态价值更高的位置;行为网络采用随机搜索方法完成全局搜索。
10、优选的,所述步骤三中,奖励的给出参考注记配置的三条规则,分别是指代明确性、配置均匀性和注记清晰性,当注记指代相比之前的状态更加明确,即注记更加接近点要素时,给出正数奖励,反之给出负数奖励;当注记配置相比之前状态更均匀,即注记距离其他注记位置更远时,给出正数奖励,反之给出负数奖励;当注记更清晰时,即注记压盖地理要素像素更少时,给出正数奖励,反之给出负数奖励;上述奖励的数值选择需要根据注记的配置情况进行参数调节以便于最佳的配置结果。
11、与现有技术相比,本发明的有益效果是:本发明的优点能够避免已有地图点要素自动配置计算模型人为设置评价因子和各因子的权重问题,利用强化学习自动学习各种隐藏配置规则,使计算结果更加科学、合理。
技术特征:
1.一种基于强化学习的地图点要素注记自动配置方法,其特征在于:步骤一:输入内容:注记点坐标、注记长宽信息、不带注记的地图原图;
2.根据权利要求1所述的一种基于强化学习的地图点要素注记自动配置方法,其特征在于:所述步骤二中,评估网络通过注记清晰性、配置均匀性、指代明确性的配置规则进行评估;具体评估方法为:对每个注记,计算各个评估规则值的和,就是当前状态的价值,是衡量配置结果好坏的依据,结果值越小,说明配置效果越好;反之,则说明配置效果越差。
3.根据权利要求2所述的一种基于强化学习的地图点要素注记自动配置方法,其特征在于:各个评估规则计算方法:指代明确性:注记位置与注记点的位置的距离;配置均匀性:每个注记位置到其他注记位置的距离和的负数;清晰性:每个注记范围内包含的边缘像素数量。
4.根据权利要求3所述的一种基于强化学习的地图点要素注记自动配置方法,其特征在于:行为网络同样根据当前注记点坐标和注记坐标随机给出下一步注记坐标的移动行为,用于帮助环境更新状态;行动网络目的在于检索地图中该注记状态价值更高的位置;行为网络采用随机搜索方法完成全局搜索。
5.根据权利要求1所述的一种基于强化学习的地图点要素注记自动配置方法,其特征在于:所述步骤三中,奖励的给出参考注记配置的三条规则,分别是指代明确性、配置均匀性和注记清晰性,当注记指代相比之前的状态更加明确,即注记更加接近点要素时,给出正数奖励,反之给出负数奖励;当注记配置相比之前状态更均匀,即注记距离其他注记位置更远时,给出正数奖励,反之给出负数奖励;当注记更清晰时,即注记压盖地理要素像素更少时,给出正数奖励,反之给出负数奖励;上述奖励的数值选择需要根据注记的配置情况进行参数调节以便于最佳的配置结果。
技术总结
本发明公开了一种基于强化学习的地图点要素注记自动配置方法,步骤一:输入内容:注记点坐标、注记长宽信息、不带注记的地图原图;步骤二:评估网络评估当前注记点坐标和注记坐标的状态,给出当前状态的价值;步骤三:环境收到行为网络提供的行为,根据行为来更新当前的环境状态,即更新注记点坐标和注记坐标,随后根据更新的情况来给出奖励;步骤四:在反向传播中,需要根据奖励和价值更新网络参数,进而迭代训练;本发明的优点能够避免已有地图点要素自动配置计算模型人为设置评价因子和各因子的权重问题,利用强化学习自动学习各种隐藏配置规则,使计算结果更加科学、合理。
技术研发人员:熊顺,马超,王强,何列松,谢鹏,徐道柱,焦洋洋,蒋丹妮
受保护的技术使用者:中国人民解放军61540部队
技术研发日:
技术公布日:2024/11/28
技术研发人员:熊顺,马超,王强,何列松,谢鹏,徐道柱,焦洋洋,蒋丹妮
技术所有人:中国人民解放军61540部队
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
