基于多智能体深度强化学习的移动边缘计算任务卸载方法

2026-06-26 09:40:02 147次浏览

本发明属于边缘计算，具体涉及一种基于多智能体深度强化学习的移动边缘计算任务卸载方法。

背景技术：

1、移动边缘计算(mobile edge computing，mec)作为一种新兴的计算范式，旨在通过将计算和存储资源分布到靠近数据源和用户终端的边缘节点，从而减轻核心网络的负担，提高计算效率和响应速度。随着互联网、物联网的快速发展，智能移动设备的数量出现爆炸式增长的趋势，使得数据存储和计算资源的需求急剧增长，传统的云计算模式在处理延迟敏感和计算密集型任务时显得力不从心。

2、多智能体系统(multi-agent systems，mas)由于其在复杂环境中协同解决问题的能力，近年来在诸多领域得到了广泛应用。在移动边缘计算环境中，不同边缘节点和用户设备可以被视为独立的智能体，它们通过相互协作和竞争，共同完成任务卸载和资源分配。基于多智能体深度强化学习(multi-agent deepreinforcement learning，madrl)的方法，能够通过智能体之间的交互学习和策略共享，实现对动态环境的适应和全局优化。因此，基于madrl的移动边缘计算任务卸载方法，旨在通过训练多个智能体在协作与竞争中学习最优卸载策略，以最小化任务处理延迟和能耗，提升整体系统性能。

3、深度强化学习(deep reinforcement learning，drl)通过结合深度学习和强化学习的优势，展示了其在处理高维度状态空间和复杂策略优化问题中的卓越能力，能够在没有明确模型和任何先验知识的情况下，通过智能体之间的交互学习和策略共享，实现对动态环境的适应和全局优化。目前基于深度强化学习的任务卸载方法主要是集中式的单智能体方法，卸载决策仅依靠一个中央控制器来处理。在面对多用户或多任务场景时，中央控制器可能无法充分考虑到所有用户的行为，导致全局最优解的搜索困难。以及，在目前移动边缘计算的系统环境中仍存在任务执行计算开销大，任务卸载方式不合理且低效的问题。

技术实现思路

1、为了解决现有技术中存在的上述技术问题，本发明提出了一种基于多智能体深度强化学习的移动边缘计算任务卸载方法，其具体技术方案如下：

2、一种基于多智能体深度强化学习的移动边缘计算任务卸载方法，包括：

3、步骤s1，搭建mec系统网络，包括：一个云服务器、多个配备mec服务器即边缘服务器的基站以及多个用户即智能体设备；

4、步骤s2，建立mec系统中任务处理的计算模型：若用户选择在本地执行任务，则本地计算成本包括任务的本地计算时延和本地计算能耗；若用户将任务卸载到边缘服务器或云服务器，则计算成本包括任务传输时延、计算时延及计算能耗；

5、步骤s3，统计各用户在不同卸载决策下执行任务的总计算成本，以最小化mec系统中所有用户的长期平均计算成本为目标，构建出任务卸载策略的优化函数；

6、步骤s4，每个用户根据当前环境状态，通过训练基于多智能体深度确定性策略梯度算法和自注意力机制的模型来寻求最优的任务卸载决策。

7、进一步的，在步骤s1中，基站表示为bsi(i∈1,2,…m)，边缘服务器为esi，用户设备为muj(j∈1,2,...n)，所述基站与边缘服务器之间通过物理链路连接，用户设备与基站之间通过无线链路连接，边缘服务器为用户设备提供计算服务；

8、mec系统网络采用离散时间模型，将mec系统时间离散化为tmax个时隙，使用集合t＝{t|t∈1,2,...,tmax}来表示，假设mec系统包含了z类不同的任务，使用集合l＝{lz|z∈1,2,...,z}来表示任务集，用户产生的任务表示为lj＝{dj,bj,zj,rj}，其中dj表示在一个时隙产生的任务的数据大小，bj表示为最大容忍时延，zj表示任务类型，rj表示任务结果大小。

9、进一步的，在步骤s2中，使用变量ωj来表示用户设备muj的卸载决策，若ωj＝0表示用户选择任务在本地执行，若ωj＝1表示用户选择卸载任务到边缘服务器执行，若ωj＝-1表示用户选择卸载任务到云服务器执行。

10、进一步的，用户选择在本地执行任务时，具体为：任务lj在用户本地执行，计算成本仅由执行时延和执行能耗构成，执行时延表示为：其中为用户设备muj的cpu频率，cpu频率以每秒周期数为单位，η为执行一比特任务所需的cpu周期数；执行能耗表示为：其中κ表示每个cpu周期的有效电容系数；因此，本地计算成本开销为：其中α∈[0,1]为时延成本与能耗成本的权重系数。

11、进一步的，用户将任务卸载到边缘服务器或云服务器执行时，具体为：根据香农定理，用户设备muj到边缘服务器esi可达到的传输速率为：用户设备muj到云服务器cloud可达到的传输速率为：其中σ2是加性高斯白噪声功率，w是带宽，poff是卸载功率，用户设备muj到边缘服务器esi的信道系数为hj,i，到云服务器的信道系数为hj,cloud；

12、任务lj卸载到边缘服务器或云服务器执行，计算成本包括传输成本和执行成本，传输成本包括传输延迟和能耗，执行成本包括执行延迟和能耗；用户设备muj将任务卸载到边缘服务器的总时延为：其中为边缘服务器esi分配给用户设备muj的cpu频率，频率以每秒周期数为单位，总能耗为：其中，pwait为用户设备muj等待返回任务结果的空闲时的等待功率；用户设备muj将任务卸载到边缘服务器的卸载总成本开销为：用户设备muj将任务卸载到云服务器的总时延为：其中为云服务器cloud分配给用户设备muj的cpu频率，总能耗为：其中，pwait为用户设备muj等待返回任务结果的空闲时的等待功率，用户设备muj将任务卸载到云服务器cloud的卸载总成本开销为：

13、进一步的，步骤s3中所构建的优化函数，具体为：

14、

15、其中c1限制用户的决策为任务卸载到云服务器、用户本地、边缘服务器的其中之一；c2限制用户决策的处理任务时间不超过任务的最大容忍时延；c3限制所有卸载到边缘服务器的用户分配到的计算资源之和不超过边缘服务器拥有的计算资源，并且用户分配到的计算资源为非零正数，fedge表示边缘服务器拥有的总计算资源。

16、进一步的，所述智能体的状态空间、动作空间以及奖励函数，具体定义为：

17、智能体j在时隙t时的状态表示为：其中为上一时隙智能体j获得系统分配的计算资源大小，为上一时隙系统总成本开销大小，dt,j为智能体j在当前时隙产生的任务大小，bt,j为智能体j当前时隙任务的最大容忍时延，t时隙整个系统的状态空间表示为st＝{st,j|j∈[1,n]}；

18、智能体j在时隙t时的动作表示为：at,j＝{ωj,-1,ωj,0,ωj,1,...,ωj,m}，ωj,-1表示动作为卸载到云服务器，ωj,0表示在本地计算，ωj,1,...,ωj,m表示选择卸载到某个边缘服务器，t时隙整个系统的动作空间表示为at＝{at,j|j∈[1,n]}；

19、在时隙t时，智能体j根据状态st,j，做出卸载动作at,j，则它获得的奖励表示为rt,j；

20、智能体j的奖励函数定义为：时隙t系统的奖励函数为t时隙整个系统所有智能体j的奖励，表示为rt＝{rt,j|j∈[1,n]}。

21、进一步的，所述的基于多智能体深度确定性策略梯度算法和自注意力机制的模型设有经验回放缓冲区，模型中每个智能体的网络结构包括：1个当前actor网络μ、1个目标actor网络μ′、1个当前critic网络q、1个目标critic网络q′，定义智能体j的4个网络参数分别为

22、智能体j与环境进行交互得到状态st,j，智能体j的当前actor网络根据状态st,j选择动作at,j，并观察环境反馈的联合奖励rt,j和下一个状态st+1,j，从而定义得到一个经验元组<st,at,rt,st+1>，并将经验元组的经验数据存储在经验回放缓冲区中，模型训练时通过随机抽取经验样本对智能体网络进行参数更新。

23、进一步的，所述智能体的网络进行参数更新，具体包括：

24、更新当前critic网络：根据智能体当前的动作和状态，得到目标估计值yt,j与真实动作价值qt,j，并且使用其均方误差作为损失函数，通过最小化均方误差来更新当前critic网络；损失函数losst,j定义如下：其中b表示为从经验回放缓冲区随机抽取小批量数据的数量；

25、更新当前actor网络；当前actor网络使用策略梯度上升的优化方法，通过最大化期望回报来更新策略函数的参数，因此策略梯度更新的方法为：

26、更新目标critic网络和目标actor网络：两个目标网络的更新均采用软更新方式，更新过程分别为：和其中τ为目标网络更新参数，τ∈[0,1]。

27、本发明的有益效果主要表现在：通过融入自注意力机制，多智能体深度强化学习算法能够让智能体将注意力集中在对当前任务具有关键性的状态信息上，从而提高决策的准确性。同时采用云服务器、边缘服务器和本地设备相结合的方式提供任务执行服务，能提高任务执行的灵活性和效率，最小化整个系统的平均用户成本。此外，提出的任务卸载方法允许用户在本地自行做出任务的最优卸载决策，不必再将任务传输至中央服务器进行决策。

文档序号 : 【 40199815 】

技术研发人员：谢满德,李龙辰
技术所有人：浙江工商大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

谢满德丨李龙辰丨浙江工商大学