基于PPO算法的选择性拆卸优化方法、设备和介质
技术特征:
1.基于ppo算法的选择性拆卸优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述s1具体包括:
3.根据权利要求2所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述dpn模型的五元组表示如下:
4.根据权利要求3所述的基于ppo算法的选择性拆卸优化方法,其特征在于,dpn模型的五元组的每个变迁至少包括一个输入和两个输出;其中,每个变迁至少从一个或多个库所获取令牌,并将令牌分发到不同的库所;当一个库所具有令牌时,只能选择激活其中一个输出变迁;当变迁从多个有向弧指向不同的库所,若变迁被激活后,所指向的所有库所都会获得令牌;
5.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述基于强化学习的选择性拆卸模型的奖励函数包括:拆卸过程的环境污染指标、拆卸过程的回收再利用价值指标和拆卸过程的回收再利用价值指标。
6.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述s2具体包括:
7.根据权利要求5-6任一所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述拆卸过程的环境污染指数:
8.根据权利要求7所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述ppo算法为actor-critic网络架构,其中,actor网络更新表示如下:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的基于ppo算法的选择性拆卸优化方法。
技术总结
本发明提出了基于PPO算法的选择性拆卸优化方法,方法包括:根据需要拆卸的报废(EOL)产品构建拆卸废旧产品的DPN模型;根据DPN模型构建基于强化学习的选择性拆卸模型,并使用PPO算法对选择性拆卸模型进行训练;将实时需要拆卸的EOL产品输入训练后的选择性拆卸模型,得到最优的拆卸动作合集。本发明基于PPO算法的选择性拆卸优化方法不仅提高了拆卸过程的效率和效果,而且在面对复杂动态的拆卸任务时展现了更强的适应性和稳定性。此外,结合其他先进的强化学习算法并探索更优的建模方案,有望进一步提升选择性拆卸规划方法的性能和实用性,为可持续制造和资源回收提供有力的技术支持。
技术研发人员:郭洪飞,傅文杰,任亚平,何智慧,张锐,朝宝
受保护的技术使用者:内蒙古工业大学
技术研发日:
技术公布日:2024/11/26
文档序号 :
【 40125651 】
技术研发人员:郭洪飞,傅文杰,任亚平,何智慧,张锐,朝宝
技术所有人:内蒙古工业大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:郭洪飞,傅文杰,任亚平,何智慧,张锐,朝宝
技术所有人:内蒙古工业大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
