一种强化学习驱动的分布式柔性作业车间调度优化系统

2025-08-29 15:00:07 506次浏览

技术特征：

1.一种强化学习驱动的分布式柔性作业车间调度优化系统，其特征在于，该系统包括调度序列初始化模块、基于q-learning的超启发式框架模块、基于问题特征的节能策略模块和基于启发式的移动接受准则模块；

2.根据权利要求1所述的一种强化学习驱动的分布式柔性作业车间调度优化系统，其特征在于：在调度序列初始化模块中，首先，工厂序列fa向量由h1构造，根据工厂负载最短为工件选择负载最低的工厂；其次，由h2构造机器序列ma向量，同h1，h2为工件选择最低负载的机器并加工，如果多台机器负载相同，则随机选择机器进行加工；接着，h3根据工件的剩余加工时间构造操作序列os向量，剩余处理时间最长的工件优先被加工；最后r1在构造好的fa-ma-os序列加入随机扰动，以增加种群的多样性，使系统在求解分布式柔性作业车间调度问题时能够获得更高精度的结果。

3.根据权利要求2所述的一种强化学习驱动的分布式柔性作业车间调度优化系统，其特征在于：在基于q-learning的超启发式框架模块中，为了提高超启发式的性能，采用q-learning作为高层策略，通过每次迭代的反馈信息训练智能体，智能体根据环境(种群状态)选择最适合当前环境的动作(低级启发式)以对解空间进行探索和开发；训练过程采用改进的∈-贪婪策略，其动作选择概率如下：

4.根据权利要求3所述的一种强化学习驱动的分布式柔性作业车间调度优化系统，其特征在于：当操作oi,j到达机器时，扫描同一台机器上的前一个空闲时间块，确定是否存在加工时间小于空闲时间块的操作(其中,oi,j为第i个工件的第j个操作)。将操作oi,j移动到该空闲时间块，并将其他操作oi,j向前移动；然后，执行上述步骤将调度方案从半主动调度转换为主动调度后，反向遍历操作所在机器的空闲时间块，并将处理时间小于空闲时间块的操作向右移动；

5.根据权利要求4所述的一种强化学习驱动的分布式柔性作业车间调度优化系统，其特征在于：通过对种群的个体进行插入、交换等操作，生成邻域解，在当前邻域解中搜索更好的解，即找到使目标函数值最小的邻域解，八种邻域搜索算子介绍如下：

6.根据权利要求5所述的一种强化学习驱动的分布式柔性作业车间调度优化系统，其特征在于：在基于启发式的移动接受准则模块中，采用模拟退火的启发式方法作为移动接受准则，以概率pma接受新群体中质量相对较差的解，从而摆脱陷入局部最优的麻烦；如果新的解π比当前解有所改进，则取代当前解；否则，新解被接受的概率为pma，该概率由公式(6)计算得出：

技术总结
本发明涉及制造业分布式生产调度技术领域，具体为一种强化学习驱动的分布式柔性作业车间调度优化系统，首先，根据三维向量编码方式，采用3种启发式分别生成工厂序列、机器序列和操作序列，编码方式示意，其次在构造好的FA‑MA‑OS序列加入随机扰动R1，以增加种群的多样性；设计了给予强化学习机制的选择超启发式框架，通过训练智能体，智能体根据种群的实时状态自适应选择搜索算子探索和开发解空间；以插入、交换和删除为基本操作针对问题特征设计了八种对关键操作的邻域搜索算子；设计的节能操作可以有效地降低能耗，提高解的质量；为了提高解的多样性，避免算法陷入局部最优，提出了一种基于启发式的移动接收准则，以解的质量为依据，概率接受新解。

技术研发人员：赵付青,耿泽武,张建林,许天鹏,朱宁宁,梁昊鸣,施秋霞
受保护的技术使用者：兰州理工大学
技术研发日：
技术公布日：2024/11/26

文档序号 : 【 40123485 】

技术研发人员：赵付青,耿泽武,张建林,许天鹏,朱宁宁,梁昊鸣,施秋霞
技术所有人：兰州理工大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

赵付青丨耿泽武丨张建林丨许天鹏丨朱宁宁丨梁昊鸣丨施秋霞丨兰州理工大学

储能装置的制作方法一种共固定谷氨酸脱羧酶及其辅酶磷酸吡哆醛的方法