基于专家状态的生成对抗网络强化学习的暖通空调控制方法

2025-06-16 14:40:07 769次浏览

技术特征：

1.基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述步骤s1中使用energyplus来搭建虚拟建筑环境并用openai gym框架训练来与强化学习进行交互。

3.根据权利要求1所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述虚拟建筑环境中建筑物分为东西两个区域，每个所述区域配备独立的havc。

4.根据权利要求1所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述步骤s2中，规划方法的规划目标函数如下：

5.根据权利要求1所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于：所述步骤s3中，策略网络π根据状态值st挑选动作值at并将动作值输入虚拟建筑环境得到下一时刻状态值st+1其公式可以表示为：

6.根据权利要求5所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述步骤s5中，生成器目标是找到一个策略网络π，使得有策略网络π生成联合分布ρπ(s,s')接近专家状态的联合分布ρe(s,s')，基于状态的生成对抗网络的强化学习优化的目标函数为：

7.根据权利要求6所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述专家状态和生成状态之间的分布差异使用l1-wassertain来测量。

8.根据权利要求6所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述步骤s6中，使用wasserstein距离来计算专家状态分布和生成状态分布的距离，其距离可以用判别网络d定义为：

9.根据权利要求8所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述判别网络的目标函数如下：

10.根据权利要求7所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述步骤s7中通过步骤s6训练完成的判别网络和传统奖励函数塑造奖励值rt，并将其以(st,at,rt,st+1)的形式存入策略网络经验池bsac，所述奖励函数包括判别网络的输出值经过一个映射函数得到以及传统的奖励函数，表达式如下：

11.根据权利要求1-10任意一项所述的基于专家状态的生成对抗网络强化学习暖通空调控制方法，其特征在于，所述策略网络经验池bsac为一个固定容量的经验池，当存入经验池的容量超过了最大容量，则旧的数据将被删除。

技术总结
本发明公开了一种基于专家状态的生成对抗网络强化学习的暖通空调控制方法，包括如下步骤：步骤S1、搭建虚拟建筑环境；步骤S2、根据历史环境数据和虚拟环境通过规划方法获取的状态‑下一时刻状态对作为专家状态；步骤S3、生成器与环境互动获得状态‑下一时刻状态对作为生成状态；步骤S4、判断策略网络经验池B<subgt;SAC</subgt;的数据量是否大于策略网络π最小更新时经验池中经验数量的最小值，若是则跳转至步骤S5，若不是则跳转至步骤S6；步骤S5、训练策略网络π；步骤S6、训练判别网络；步骤S7、塑造奖励值；步骤S8、重复步骤S3‑S8，直至结果收敛后输出策略网络。该方法能有效的降低暖通空调的运行能耗成本且能维持室内温度在合理的区间内。

技术研发人员：张帆,任泽涛,董伟,方晓伦,赵晓东
受保护的技术使用者：杭州电子科技大学
技术研发日：
技术公布日：2024/11/18

文档序号 : 【 40051229 】

技术研发人员：张帆,任泽涛,董伟,方晓伦,赵晓东
技术所有人：杭州电子科技大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

张帆丨任泽涛丨董伟丨方晓伦丨赵晓东丨杭州电子科技大学

一种智能化钢结构土建施工装置及其工艺的制作方法基于区块链技术的米粉生产数据溯源方法及装置与流程