基于PPO算法的选择性拆卸优化方法、设备和介质

2026-01-25 14:00:02 482次浏览

技术特征：

1.基于ppo算法的选择性拆卸优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法，其特征在于，所述s1具体包括：

3.根据权利要求2所述的基于ppo算法的选择性拆卸优化方法，其特征在于，所述dpn模型的五元组表示如下：

4.根据权利要求3所述的基于ppo算法的选择性拆卸优化方法，其特征在于，dpn模型的五元组的每个变迁至少包括一个输入和两个输出；其中，每个变迁至少从一个或多个库所获取令牌，并将令牌分发到不同的库所；当一个库所具有令牌时，只能选择激活其中一个输出变迁；当变迁从多个有向弧指向不同的库所，若变迁被激活后，所指向的所有库所都会获得令牌；

5.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法，其特征在于，所述基于强化学习的选择性拆卸模型的奖励函数包括：拆卸过程的环境污染指标、拆卸过程的回收再利用价值指标和拆卸过程的回收再利用价值指标。

6.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法，其特征在于，所述s2具体包括：

7.根据权利要求5-6任一所述的基于ppo算法的选择性拆卸优化方法，其特征在于，所述拆卸过程的环境污染指数：

8.根据权利要求7所述的基于ppo算法的选择性拆卸优化方法，其特征在于，所述ppo算法为actor-critic网络架构，其中，actor网络更新表示如下：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的基于ppo算法的选择性拆卸优化方法。

技术总结
本发明提出了基于PPO算法的选择性拆卸优化方法，方法包括：根据需要拆卸的报废(EOL)产品构建拆卸废旧产品的DPN模型；根据DPN模型构建基于强化学习的选择性拆卸模型，并使用PPO算法对选择性拆卸模型进行训练；将实时需要拆卸的EOL产品输入训练后的选择性拆卸模型，得到最优的拆卸动作合集。本发明基于PPO算法的选择性拆卸优化方法不仅提高了拆卸过程的效率和效果，而且在面对复杂动态的拆卸任务时展现了更强的适应性和稳定性。此外，结合其他先进的强化学习算法并探索更优的建模方案，有望进一步提升选择性拆卸规划方法的性能和实用性，为可持续制造和资源回收提供有力的技术支持。

技术研发人员：郭洪飞,傅文杰,任亚平,何智慧,张锐,朝宝
受保护的技术使用者：内蒙古工业大学
技术研发日：
技术公布日：2024/11/26

文档序号 : 【 40125651 】

技术研发人员：郭洪飞,傅文杰,任亚平,何智慧,张锐,朝宝
技术所有人：内蒙古工业大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

郭洪飞丨傅文杰丨任亚平丨何智慧丨张锐丨朝宝丨内蒙古工业大学