首页  专利技术  其他产品的制造及其应用技术

基于多智能体强化学习的住宅综合能源系统优化控制方法

2025-10-01 09:40:07 340次浏览
基于多智能体强化学习的住宅综合能源系统优化控制方法

本发明涉及建筑环境控制,具体涉及基于多智能体强化学习的住宅综合能源系统优化控制方法。


背景技术:

1、当下我国建筑建造、运行全生命周期相关碳排放可占到全社会碳排放的40%以上。随着经济收入和电气化水平的提升,我国建筑运行能耗将进一步增加。推动能源清洁高效利用,加快规划建设新型能源体系,离不开建筑领域的支持。2010年以来,全国建筑部门热力消费量已增长75%,我国建筑部门热力消费相关碳排放约占全球25%。我国有全球最大的城镇集中供热规模,主要热源是基于化石燃料的热电联产和锅炉系统,推广分布式可再生能源和电热泵在建筑区域能源系统中的脱碳潜力巨大。建筑去碳化的一个可行途径是采用可再生能源和电气化。随着分布式能源集成度的不断提高,集中式能源系统正向分散式能源系统过渡。可再生能源发电受天气条件影响较大,具有间歇性的特点,各种分布式能源的集成进一步增加了能源系统的复杂性,也对实时能源平衡提出了挑战。开发储能系统和协调需求能源管理在解决能源失配、实现节能和成本节约方面具有巨大潜力。

2、住宅综合能源系统可集成和调度多种能源流,包括电力、天然气和热能。然而,多种能源的整合增加了管理不同能源流的复杂性。此外,住宅综合能源系统由各种组件组成,通常涉及非线性约束,需要复杂的建模。基于模型的非线性优化通常需要结合先进的优化算法、特定问题建模技术和启发式优化方法。传统的基于模型的优化方法需要精确的系统建模,且这一过程需要大量的专业知识,耗时较长,因此该方法难以推广。非线性模型可以更准确地描述系统的复杂动态行为。但是在基于模型的算法中求解这些非线性拟合关系非常复杂,进一步增加了系统建模和优化的难度。为解决多能源系统的非线性和隐含运行约束,线性化过程被广泛引入,但简化模型以提高计算效率可能会降低优化能源系统的可靠性。


技术实现思路

1、本发明的目的在于提供一种基于多智能体强化学习的住宅综合能源系统优化控制方法,以弥补现有技术的不足。

2、本发明的目标是最大限度地降低家庭能源成本,同时满足电价和现场光伏发电方面的能源平衡。采用了基于模型和数据驱动的方法,通过考虑热泵制热和燃料电池发电行为的非线性特征,克服了传统基于模型控制方法的局限性,能够准确描述系统的复杂动态行为,并在高度复杂的场景下做出快速、高效的决策。

3、为达到上述目的,本发明是通过以下技术方案实现的:

4、一种基于多智能体强化学习的住宅综合能源系统优化控制方法,该方法包括如下步骤:

5、s1:从建筑的实际运行中获取相关数据,并将收集到的数据作为训练样本数据,进行数据的预处理;

6、s2:构建多智能体环境模型,对系统的运行进行仿真和约束;在此环境中,系统对各个智能体的动作施加约束,确保系统的运行符合物理和实际条件;

7、s3:构建多智能体ippo模型,明确调控的状态变量、动作变量,并通过设计奖惩机制优化各智能体的策略;

8、s4:每个智能体独立维护和更新其策略,利用ippo算法通过策略梯度法进行训练,在多次迭代后生成建筑能源系统的最优调控策略;

9、s5:利用训练好的多智能体ippo模型实现能源的高效分配和运行成本的降低。

10、进一步的,所述s1中,采集的相关数据包括:光伏发电量、用户电力负载、热水需求、实时电价、月份信息、小时信息、室外温度、热泵性能系数;为了便于强化学习模型学习,时间数据被转化为正弦和余弦形式。

11、进一步的,所述s1中,对于采集数据的一种预处理方式为:

12、(1)填补数据缺失值:在数据采集的过程中可能会由于设备故障等多种原因造成部分时刻的温度、光伏发电量等信息丢失和空缺,针对这部分数据选用前向/后向填充进行填充;

13、(2)离群值的处理:离群值也就是数据集中偏离大部分数据的数据;对于离群值的处理主要有直接删除、均值或其他统计量代替等方法,这里将其视作缺失值进行填补。为了确认离群值,选用法即标准差法确认采集数据的合理范围,其中表示数据集的平均值、表示标准差,选出超出范围的数据进行替换与填补。

14、进一步的,所述s2中:

15、s2-1:首先明确目标是最大限度地降低家庭能源成本,同时满足电价和现场光伏发电方面的能源平衡。所制定的能源管理策略侧重于调节储氢设备和蓄热水箱的充放电功率,以及燃料电池和热泵系统的发电量;优化目标可用公式(1)描述。

16、;

17、式中,为家庭能源成本,为时间步长t的电、气购买成本;t为单个调度周期的时间步长。

18、s2-2:构建燃料电池灵活性优化模型;燃料电池系统的运行同时产生电力和热水,电效率是衡量其发电性能的指标;燃料电池负载比与电效率之间的非线性关系用公式(2)描述:

19、;

20、其中,是为t时刻燃料电池电效率,、分别为时间步长t时燃料电池发电功率、燃料电池的最大额定输出功率,单位为kw;a,b,c,d为燃料电池电效率的相关系数。

21、燃料电池功率的输出取决于最大发电量:

22、;

23、燃料电池的运行应该始终满足系统的电力平衡,表达式如式(4)-(5):

24、;

25、;

26、式中,表示氢气发电功率,表示天然气发电功率,为天然气的低热值,表示天然气体积;

27、s2-3:构建设备灵活性优化模型。储氢设备用于储存电解槽产生的氢气,同时为燃料电池提供燃料。储能系统可以在发电高峰期储存多余电力,并在需求高峰期释放,可以更好地应对电价波动性,最大化能源系统经济效益。

28、在电解池中电能通过电解生产氢气并进行储存。其电转氢关系可表示为式(6):

29、;

30、式中,电解池产氢功率;为电解池的用电功率,为电转氢效率。

31、储氢设备用于储存电解槽产生的氢气,并为燃料电池提供燃料。当光伏发电量超过负荷时,储氢设备充电;反之,则放电。储氢设备在运行期间受最大功率的限制。由于储氢设备效率相对较低,因此在充放电过程中会产生损耗。其运行约束如式(7)-(9):

32、;

33、;

34、;

35、其中,为氢气罐实时电功率,为氢气罐充电功率,为氢气罐放电功率,、分别为氢气罐最大放电功率和最大充电功率,为光伏发电功率;为氢气罐容量。

36、s2-4:构建空气源热泵灵活性优化模型。蓄热水箱已广泛应用于住宅热水系统。当从热泵和燃料电池回收的热量足以满足用户的热量需求时,就可以将热水储存在蓄热水箱中备用。蓄热水箱的运行约束条件如式(10)-(12)所示:

37、;

38、;

39、;

40、其中,为蓄热水箱实时热功率,为蓄热水箱充热功率,为蓄热水箱放热功率,、分别为蓄热水箱最大放热功率和最大充热功率;为蓄热水箱容量,为蓄热水箱充放效率,分别表示余热回收率和燃料电池的热效率。

41、热泵的运行应该始终满足系统的电力平衡,表达式如下:

42、;

43、式中,为热泵消耗电功率;为电网导入量;为热泵消耗光伏量。

44、空气源热泵产生的热能可通过式(15)确定:

45、;

46、性能系数cop定义为产生的热量与消耗的电量之比。cop与室外空气温度t呈非线性关系,由式(16)计算得出:

47、;

48、其中,为空气源热泵cop的相关系数。

49、进一步的,所述s3中,具体包括:

50、神经网络的搭建。选用多智能体并行训练架构,通过xuance库中的ippo算法,建立系统的输入输出模型。每个智能体采用独立的策略网络与价值网络,输入为环境的状态信息,输出为控制策略。

51、进一步的,上述神经网络模型中,使用多层感知器(mlp)来对策略进行建模,隐含层和输出层的具体配置依赖于xuance中ippo算法的默认设置。mlp的配置为两层隐含层,每层包含128个节点,激活函数为relu。选择输入层参数包括当前时刻的光伏发电量,除去热泵外电力需求,热水需求,室外温度信息,季节信息,半小时时刻信息,电价信息,热泵性能系数等8个维度的输入特征,t表示当前时刻;输出下一时刻的各个能源设备的控制策略,例如燃料电池功率、热泵功率和储氢设备储能系统的功率。策略网络使用relu激活函数,输出层为 sigmoid 函数逐步收敛并生成策略的动态估值。策略网络的损失基于策略梯度优化,价值网络的损失估值误差通过误差计算得到。为了提高收敛速度与模型性能,优化器采用 adam 梯度下降算法来寻找最优解。

52、进一步的,所述多智能体ippo模型具体将控制方法运行优化问题建模为马尔科夫决策过程:

53、(1)状态观测空间的设置。每个智能体都被分配了一个独立的状态空间,描述了每个智能体在t时刻的状态信息特征。,这些特征可分光伏发电量,除去热泵外电力需求,热水需求,室外温度信息,季节信息,半小时时刻信息,电价信息,热泵性能系数。这些状态空间是独立的,但具有相同的维度结构。

54、(2)动作空间a的设置。每个智能体对应着一个设备,并根据设备的功能和约束设定相应的动作范围。对于储氢设备控制的取值范围为[-1,1],并通过乘以充放电的差值来进行缩放,负值表示储氢设备放电,正值表示充电,储氢设备充放电功率的计算受到严格的约束控制。燃料电池和热泵的动作空间取值范围为[0,1],若动作为0代表设备不工作,反之则工作。

55、(3)奖励函数r的设置,本发明采用了一种共享奖励函数的设计,即所有代理都获得相同的奖励,而不管单个agent的表现如何,它将动作导向一个共同的目标。这可以通过定义总体状态和每个代理的行为来促进协作。考虑制定的优化问题,所开发的奖励函数由四个部分组成:(1经济成本的奖励,(2供电执行动作获得的奖励,(3供热执行动作获得的奖励,(4燃料电池电效率的奖励,奖励函数定义如下:

56、;

57、经济成本的奖励,考虑到购电与购气成本如式(18):

58、;

59、式中, 分别为从公共电网购入和售出的电量,表示购电价格和售电价格,为天然气价格。

60、的充放热是根据燃料电池余热回收量、热泵的动作、热水需求和剩余储热空间来进行蓄热放热的操作,根据储氢设备动作和剩余空间来进行相应的更新。为了保证系统正常的运行,需要受到约束,以防止过充和过放,约束表达式如下:

61、;

62、通过对电效率进行优化有助于提高能源利用效率;

63、。

64、进一步的,所述s4中所述多智能体ippo模型的训练:每个智能体根据环境反馈,不断更新策略网络和价值网络的权重。智能体通过与环境的交互,逐步学习最优的策略,以最大化奖励函数的总和。训练过程中,使用累积奖励曲线监控模型的学习进展,确保智能体策略收敛并不断提升性能。

65、假设选定代轮数为m,采样的序列最大长度为t,学习率为,裁剪系数为,折扣因子为,熵系数为。状态空间为s,动作空间为a:

66、第一步:初始化每个智能体的策略网络和价值网络,设定初始权重和;

67、第二步:创建并行环境,为每个智能体分配初始状态;

68、第三步:循环遍历每个事件;

69、第四步:初始化每个智能体的状态,并输入神经网络,提取状态特征;

70、第五步:循环遍历每个智能体的每一步, ;

71、第六步:基于当前状态,策略网络生成动作;

72、第七步:执行动作,环境返回即时奖励和下一时刻状态;

73、第八步:计算优势函数;

74、第九步:计算策略损失;

75、第十步:计算价值网络损失;

76、第十一步:计算熵损失;

77、第十二步:组合总损失函数: ;

78、第十三步:使用adam 优化器更新策略网络和价值网络;

79、第十四步:更新状态,并记录每一轮的累积奖励;

80、第十五步:重复以上步骤m次,直到学习出使得累计奖励值r最大的策略。

81、与现有技术相比,本发明的优点和有益效果是:

82、本发明提出了一种基于多智能体强化学习的住宅综合能源系统优化控制方法,克服了传统基于模型控制方法的局限性,能够准确描述系统的复杂动态行为,实现多种能源流的高效协作。本发明实现了实时动态决策,显著降低了家庭能源成本,提升了能源利用效率,具有经济性和环保效益,相比传统方法具有明显优势。

文档序号 : 【 40163503 】

技术研发人员:李岩学,吕小雨,徐阳
技术所有人:青岛理工大学

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
李岩学吕小雨徐阳青岛理工大学
一种木材表面加工的抛光设备的制作方法 一种无人机机载多光谱模块的制作方法
相关内容