基于多智能体强化学习的住宅综合能源系统优化控制方法
技术特征:
1.一种基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,该方法包括如下步骤:
2.如权利要求1所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,所述s1中,采集的相关数据包括:光伏发电量、用户电力负载、热水需求、实时电价、月份信息、小时信息、室外温度、热泵性能系数。
3.如权利要求1所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,所述s1中,所述数据预处理方式为:填补数据缺失值或离群值的处理。
4.如权利要求1所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,所述s2中:
5.如权利要求1所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,所述s3中选用多智能体并行训练架构,通过xuance库中的ippo算法,建立系统的输入输出模型;每个智能体采用独立的策略网络与价值网络,输入为环境的状态信息,输出为控制策略。
6.如权利要求1所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,所述多智能体ippo模型中,使用多层感知器mlp来对策略进行建模,隐含层和输出层的具体配置依赖于xuance中ippo算法的默认设置;mlp的配置为两层隐含层,每层包含128个节点,激活函数为relu;选择输入层参数包括当前时刻的光伏发电量,除去热泵外电力需求,热水需求,室外温度信息,季节信息,半小时时刻信息,电价信息,热泵性能系数等8个维度的输入特征,t表示当前时刻;输出下一时刻的各个能源设备的控制策略,例如燃料电池功率、热泵功率和储氢设备储能系统的功率;策略网络使用relu激活函数,输出层为 sigmoid 函数逐步收敛并生成策略的动态估值,策略网络的损失基于策略梯度优化,价值网络的损失估值误差通过误差计算得到;为了提高收敛速度与模型性能,优化器采用 adam 梯度下降算法来寻找最优解。
7.如权利要求1所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,所述多智能体ippo模型具体将控制方法运行优化问题建模为马尔科夫决策过程:
8.如权利要求1所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,所述s4中所述多智能体ippo模型的训练:每个智能体根据环境反馈,不断更新策略网络和价值网络的权重;智能体通过与环境的交互,逐步学习最优的策略,以最大化奖励函数的总和,训练过程中,使用累积奖励曲线监控模型的学习进展,确保智能体策略收敛并不断提升性能。
9.如权利要求8所述的基于多智能体强化学习的住宅综合能源系统优化控制方法,其特征在于,假设选定代轮数为m,采样的序列最大长度为t,学习率为,裁剪系数为,折扣因子为,熵系数为,状态空间为s,动作空间为a;
技术总结
本发明提供了一种基于多智能体强化学习的住宅综合能源系统优化控制方法,属于建筑环境控制技术领域。该方法从建筑的实际运行中获取相关数据,并将收集到的数据作为训练样本数据,进行数据的预处理;构建多智能体环境模型,对系统的运行进行仿真和约束;构建多智能体IPPO模型,利用IPPO算法通过策略梯度法进行训练,在多次迭代后生成建筑能源系统的最优调控策略;利用训练好的模型实现能源的高效分配和运行成本的降低。本发明采用了基于模型和数据驱动的方法,通过考虑热泵制热和燃料电池发电行为的非线性特征,克服了传统基于模型控制方法的局限性,能够准确描述系统的复杂动态行为,并在高度复杂的场景下做出快速、高效的决策。
技术研发人员:李岩学,吕小雨,徐阳
受保护的技术使用者:青岛理工大学
技术研发日:
技术公布日:2024/11/28
技术研发人员:李岩学,吕小雨,徐阳
技术所有人:青岛理工大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
