基于大语言模型交互的动态约束多目标进化方法

2026-05-14 14:20:02 177次浏览

本发明属于计算智能，具体涉及基于大语言模型交互的动态约束多目标进化方法。

背景技术：

1、在现实生活中，我们经常遇到具有多个互相冲突且随着时间变化的多目标优化问题。这类问题通常被称为动态多目标问题(dynamic multi-objective problem)。然而许多现实世界的动态多目标优化问题涉及可能随时间变化的多个约束，这类问题称为动态约束多目标优化问题(dynamic constrained multi-objective optimization problem)。这类问题由于涉及到复杂的环境变化，因此如何应对环境的改变并产生出质量更优的解是一项挑战。另外，动态约束多目标优化问题并不是简单的目标函数或者约束随着环境的改变而改变，而有可能两者都在改变，因此在这种复杂的环境变化下，以往提出的环境响应策略大部分都只是产生随机解或者保留之前环境中的最优解来应对新的环境，对环境如何发生改变这一问题并不具有很好的针对性。

2、另外，在产生后代进行种群更新时往往需要借助操作算子，然而操作算子的设计需要设计人员丰富的经验知识来进行参数的手动测试调整，因此借助大语言模型(llm)来帮助进化算法的演化技术应运而生。大语言模型是一个黑盒决策过程，使用者可以通过给出任务提示与输出要求让llm产生理想的回答并返回，在这个过程中，llm具有保存历史对话记录的功能，因此在进化过程中可以让其学习历史记录中的隐藏信息，自动学习个体动态环境下的变化规律来产生相应的解决方案，进一步提高算法的性能以应对更复杂的实际环境。

3、深度强化学习现用来解决来自不同领域的多个现实问题，在游戏领域帮助设计游戏智能ai十分受欢迎。然而利用进化算法来解决强化学习领域问题引起许多人的关注。在游戏中智能ai面临动态变化的环境需要采取复杂的行动，这一情景与动态约束多目标进化方法类似，将游戏中环境动态变化获得奖励转变为进化算法下目标评估值，从而确定相应的最优策略，作为特征目标之间的权衡。

技术实现思路

1、本发明的目的是提供基于大语言模型交互的动态约束多目标进化方法，解决了后期环境发生改变时没有针对性产生响应策略的问题。

2、本发明所采用的技术方案是，基于大语言模型交互的动态约束多目标进化方法，具体按照以下步骤实施：

3、步骤1、初始化参数；

4、步骤2、将种群分为目标型和约束型；

5、步骤3、将非支配个体传递给大语言模型保存历史信息；

6、步骤4、检测环境是否发生改变，若发生改变则将环境改变类型分类；

7、步骤5、若环境发生改变，则根据环境的改变类型启动与大语言模型的交互策略产生响应个体；

8、步骤6、若环境未发生改变，则根据步骤3保存的历史信息利用llm交互产生后代；

9、步骤7、连接深度学习框架返回奖励值作为目标函数进行个体评估，选出非支配个体并进行种群以及存档的更新；

10、步骤8、判断适应度评估次数是否小于最大函数评价次数；若满足，则输出种群的最优解和最优值；否则返回步骤2，进入下一代种群演化。

11、本发明的特点还在于：

12、步骤1中，初始化参数，包括种群规模n、目标型存档f和约束型存档c规模都初始化为n/2，非支配存档a规模为n；初始化n个个体，作为初始种群

13、步骤2具体按照以下步骤实施：

14、步骤2.1、决策变量具体分类步骤为：对个体某一维度决策变量进行高斯扰动：

15、

16、式中，为扰动之后的个体，σ为一个极小的数，uj和lj分别为种群的上下界，d为种群维度；

17、步骤2.2、比较扰动后的个体与扰动前的个体约束差值δcj，若δcj大于0.5，则归为对约束敏感型决策变量，否则为目标型决策变量；若一个d维的个体，决策变量中约束型决策变量数量大于目标型决策变量的数量，则该个体被认为是约束敏感型，归为约束型存档c，反之则被归为目标型存档f：

18、

19、式中，为经过某一维扰动之后个体与x的约束差值，δci为经过归一化处理过后的约束差值，为第g个约束的最小约束值，为第g个约束的最大约束值。

20、步骤3具体按照以下步骤实施：

21、步骤3.1、将当前环境下的个体进行非支配排序，得到每个个体所在的帕累托前沿的层数，选择第一层的最优个体放入非支配存档a，该存档中最多存放两个环境下的非支配个体；

22、步骤3.2、连接大语言模型api接口，将部分非支配个体传入llm。

23、步骤4具体按照以下步骤实施：

24、步骤4.1、选择非支配存档中t-1环境与t环境下的部分个体进行环境检测，比较个体t-1与t环境下的目标函数变化程度δf，若该值大于0.5则比较其约束变化程度δc，若约束变化程度小于0.5则未发生改变则归为目标函数在变，否则归为目标函数和约束条件都在改变；若个体t-1与t环境下的约束变化程度大于0.5，目标函数变化程度δf小于0.5则归为约束条件在变；

25、

26、式中，δf表示t-1与t环境下的目标函数变化程度，nchoice表示用来检测环境是否发生改变的个体数量，表示t-1环境下第k个个体的目标函数值，表示t环境下第k个个体的目标函数值，表示t-1环境下个体最大的目标函数值，表示t环境下个体最小的目标函数值；

27、

28、式中，δc表示t-1与t环境下的约束变化程度，nchoice表示用来检测环境是否发生改变的个体数量，表示t-1环境下第k个个体的约束值，表示t环境下第k个个体的约束值，表示t-1环境下个体最大的约束值，表示t环境下个体最小的约束值；

29、步骤4.2、判断环境改变所属类型，三种类型分别表示如下：

30、第一类：目标环境在变，约束不发生改变：

31、

32、第二类：目标环境不变，约束发生改变：

33、

34、第三类：目标环境在变，约束也发生改变：

35、

36、步骤5具体按照以下步骤实施：

37、步骤5.1、判断环境改变所属类型，则先从t-1环境中选择可行解加入p′，p′为新环境下的种群；

38、步骤5.2、若只有目标函数在变，从目标型存档f中选取个体作为父代传入llm并提示其产生后代解，并将后代解加入p′，此步骤产生后代为种群的2/3，其余个体为随机解以增加种群多样性；

39、步骤5.3、若只有约束条件在变，从约束型存档中选取个体作为父代传入llm并提示其产生后代解，并将后代解加入p′，此步骤产生后代为种群的2/3，其余个体为随机解以增加种群多样性；

40、步骤5.4、若两者都发生改变，则每次从约束型存档和目标型存档中各选取一部分个体作为父代产生后代，并将后代解加入p′，其余操作如其他两类。

41、步骤6具体为：若目标变化程度δf与约束变化程度δc都小于0.5则判定环境未发生改变，则需要用到保存的历史信息，调用llm进行交互让其通过学习历史信息中隐藏信息产生后代，同时需要给出llm提示策略。

42、步骤7具体按照以下步骤实施：

43、步骤7.1、将产生后代返回并连接深度强化学习框架，对其进行奖励值评估并进行返回，每个个体的d维决策变量对应强化学习各层网络参数，通过进化选择最终得到奖励值最大的策略网络；

44、

45、式中，q(s，a)是状态动作值函数，是策略π下得到的最大奖励总和，r(s，a)是当前状态s执行动作a获得的奖励值，γ作为折扣因子，用于控制学习未来奖励的占比，maxq(s′,a′)代表未来状态s′执行动作a′获得的奖励最大值；

46、r(s，a)＝ω0·b(s，a)+ω1·rattack+ω1·ravoid (10)

47、式中，ω0、ω1、ω2代表各部分所占比重，b(s，a)代表状态s下执行动作a的剩余血量，rattack代表攻击敌人受到的伤害，ravoid代表自己受到的伤害；

48、步骤7.2、根据后代解返回的奖励值作为目标评估值对种群以及各个存档进行更新，更新时主要采用支配原则。

49、本发明的有益效果是：

50、本发明基于大语言模型交互的动态约束多目标进化方法，针对动态约束环境下环境检测部分进行深入研究分析，从决策变量对目标与约束的敏感角度考虑，首先将种群分为对目标敏感和对约束敏感两个类型，解决了后期环境发生改变时没有针对性产生响应策略的问题；另外，将环境改变分为只有目标在变、只有约束在变和两者都发生改变三种类型，然后根据环境改变类型调用大语言模型通过交互产生后代；大语言模型是一个黑盒决策过程，利用黑盒操作解决传统算子设计时过度依赖人为经验的问题；同时，种群每一次迭代更新都需要将部分非支配最优解传入llm，利用其能够保存历史信息的特性帮助后期的响应策略部分能够产生更好的解决方案。

文档序号 : 【 40163960 】

技术研发人员：江巧永,樊璐璐
技术所有人：西安理工大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

江巧永丨樊璐璐丨西安理工大学

一种重尾噪声下鲁棒概率假设密度SLAM方法一种用于瓦斯参数快速测定的高效解吸装置的制作方法