一种基于改进DDPG算法的机械臂路径规划方法、设备和介质
技术特征:
1.一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,所述机械臂路径规划模型基于机械臂的动力学模型构建,机械臂的动力学模型基于机械臂的运动学模型构建。
3.根据权利要求2所述的一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,采用改进d-h法建立机械臂的运动学模型,具体过程如下:
4.根据权利要求2所述的一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,采用逆向工程方法构建机械臂的动力学模型,具体过程如下:
5.根据权利要求1所述的一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,引入her技术的改进ddpg算法包括actor网络、target actor网络、critic网络和targetcritic网络,通过引入her技术的改进ddpg算法训练所述机械臂路径规划模型的具体过程如下:
6.根据权利要求5所述的一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,动作对(st+1,at+1)的目标q值yi的计算公式具体如下:
7.根据权利要求5所述的一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,损失函数l的表达式具体如下:
8.根据权利要求5所述的一种基于改进ddpg算法的机械臂路径规划方法,其特征在于,采用软更新方式更新target actor网络的参数θμ′和target critic网络的参数θq′的具体过程如下:
9.一种电子设备,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
技术总结
本发明涉及一种基于改进DDPG算法的机械臂路径规划方法、设备和介质,包括以下步骤:获取机械臂初始信息和目标点信息,输入训练好的机械臂路径规划模型,获得机械臂路径规划结果;其中,机械臂路径规划模型包括机械臂状态空间、机械臂动作空间和奖励函数,机械臂状态空间包括机械臂末端的三维坐标、目标点的三维坐标和机械臂末端执行器的姿态角,机械臂动作空间包括机械臂末端的位移向量、机械臂末端执行器的转动姿态角和机械臂末端夹爪的开合状态;机械臂路径规划模型通过引入HER技术的改进DDPG算法进行训练,将达到或未达到目标点的机械臂状态标定为潜在目标状态,并据此计算奖励值。与现有技术相比,本发明可以实现高效的机械臂路径规划。
技术研发人员:田由,谭欣,刘吉娜,张亮,魏发明,周昕,夏飞,张传林,冒建亮
受保护的技术使用者:上海电力大学
技术研发日:
技术公布日:2024/12/2
技术研发人员:田由,谭欣,刘吉娜,张亮,魏发明,周昕,夏飞,张传林,冒建亮
技术所有人:上海电力大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
