基于迭代算法求解的机器人数据驱动控制方法和装置

本申请涉及机器人控制,特别是涉及一种基于迭代算法求解的机器人数据驱动控制方法和装置。
背景技术:
1、目前在工业领域应用较为广泛的控制方法是模型预测控制(modelpredictivecontrol,mpc),由于其理论的发展和在工业对象上的广泛应用而被引起关注。大多数经典的mpc算法都假设给定的模型是先验生成的,在这种情况下,辨识过程可以忽略不计。事实上,由于可能存在噪声数据集,或者采用了不合理的假设结构,精确模型描述的辨识问题,特别是对于未知非线性动力学而言,是比较棘手的。从辨识的角度考虑建模的不确定性,鲁棒mpc或者说是基于tube的mpc也可能会导致控制性能的保守和退化。
2、目前,一种典型的模型预测控制方法是基于koopman算子的控制方法,然而这种控制方法是通过数据驱动的方式求出模型参数,在此基础上设计控制器进行求解,这种方法会不可避免的引入模型误差,因此由此设计的控制器可能是次最优的。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种避免模型误差的基于迭代算法求解的机器人数据驱动控制方法和装置。
2、一种基于迭代算法求解的机器人数据驱动控制方法,所述方法包括:
3、根据待优化的线性增益矩阵和升维特征函数,构建机器人动力学模型的控制策略;所述升维特征函数是在koopman算子框架中将机器人的原始状态空间映射到高维特征空间,以此将控制策略的非线性优化问题转化为高维线性优化问题;
4、在线性空间中,定义q函数为:
5、q(zk)=l(zk)+γv(ask+buk+wk)
6、其中,z=(s,u),s表示所述升维特征函数ψ(x)的简化表示,u表示所述控制策略,l(zk)=|uk|2+|sk|2,a、b、c均为求解所述高维特征空间的模型参数,wk为模型误差,γ表示折扣因子,v(·)表示状态值函数;
7、根据所述q函数,定义其中q=nψ+m,nψ表示升维特征函数的空间维度,m表示控制策略的维度,是与相关的矩阵的向量化;
8、以数据驱动方式使用z=(s,u)的数据样本迭代计算矩阵的更新值hi,计算所述线性增益矩阵,以此得到机器人动力学模型的控制策略。
9、在其中一个实施例中,还包括:使用一组基函数构造升维特征函数ψ(x),升维特征函数ψ(x)的表达式为:
10、
11、其中,ci表示基函数的核心,σi表示基函数的宽度。
12、在其中一个实施例中,还包括:使用多层神经网络构造升维特征函数ψ(x),升维特征函数ψ(x)的表达式为:
13、
14、其中,l表示网络层数,第j层隐藏层的输出描述为:
15、gj(x)=σj(wjgj-1(yj-1)+bj)
16、其中,yj-1是第j-1层网络的输出,表示权重矩阵,σj表示激活函数,bj表示偏置项。
17、在其中一个实施例中,还包括:将控制策略的非线性优化问题转化为高维线性优化问题为:
18、
19、其中,所述高维线性优化问题满足高维下的模型约束为:
20、
21、s+表示s的下一个状态,w和v均表示模型误差。
22、在其中一个实施例中,还包括:对所述q函数简化为:
23、
24、其中,ξsu(pk)=γatpkb,ξss(pk)=γbtpka,ξss(pk)=r+γatpkb。
25、在其中一个实施例中,还包括:定义
26、在第i次迭代时,通过最小二乘法计算的更新值hi为:
27、
28、使用所述z=(s,u)的数据样本迭代计算矩阵的更新值hi,计算所述线性增益矩阵。
29、在其中一个实施例中,还包括:设置数据样本z=(s,u)的数据集为记定义δz=z-γz+,并要求δzδzt满秩,定义所述控制策略为:
30、
31、其中,d为零均值噪声。
32、在其中一个实施例中,还包括:更新值hi+1的计算公式为:
33、hi+1=(δzδzt)-1δzy
34、其中,
35、一种基于迭代算法求解的机器人数据驱动控制装置,所述装置包括:
36、转化模块,用于根据待优化的线性增益矩阵和升维特征函数,构建机器人动力学模型的控制策略;所述升维特征函数是在koopman算子框架中将机器人的原始状态空间映射到高维特征空间,以此将控制策略的非线性优化问题转化为高维线性优化问题;
37、q函数定义模块,用于在线性空间中,定义q函数为:
38、q(zk)=l(zk)+γv(ask+buk+wk)
39、其中,z=(s,u),s表示所述升维特征函数ψ(x)的简化表示,u表示所述控制策略,l(zk)=|uk|2+|sk|2,a、b、c均为求解所述高维特征空间的模型参数,wk为模型误差,γ表示折扣因子,v(·)表示状态值函数;
40、q函数转化模块,用于根据所述q函数,定义其中q=nψ+m,nψ表示升维特征函数的空间维度,m表示控制策略的维度,是与相关的矩阵的向量化;
41、控制策略计算模块,用于以数据驱动方式使用z=(s,u)的数据样本迭代计算矩阵的更新值hi,计算所述线性增益矩阵,以此得到机器人动力学模型的控制策略。
42、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
43、根据待优化的线性增益矩阵和升维特征函数,构建机器人动力学模型的控制策略;所述升维特征函数是在koopman算子框架中将机器人的原始状态空间映射到高维特征空间,以此将控制策略的非线性优化问题转化为高维线性优化问题;
44、在线性空间中,定义q函数为:
45、q(zk)=l(zk)+γv(ask+buk+wk)
46、其中,z=(s,u),s表示所述升维特征函数ψ(x)的简化表示,u表示所述控制策略,l(zk)=|uk|2+|sk|2,a、b、c均为求解所述高维特征空间的模型参数,wk为模型误差,γ表示折扣因子,v(·)表示状态值函数;
47、根据所述q函数,定义其中q=nψ+m,nψ表示升维特征函数的空间维度,m表示控制策略的维度,是与相关的矩阵的向量化;
48、以数据驱动方式使用z=(s,u)的数据样本迭代计算矩阵的更新值hi,计算所述线性增益矩阵,以此得到机器人动力学模型的控制策略。
49、上述基于迭代算法求解的机器人数据驱动控制方法和装置,无需辨识koopman算子框架中的模型参数,而是在建立q函数的基础上,采用迭代求解的方式直接计算线性增益矩阵,从而避免模型误差,可以得到更优的控制策略。
技术特征:
1.一种基于迭代算法求解的机器人数据驱动控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,构造升维特征函数的步骤包括:
3.根据权利要求1所述的方法,其特征在于,构造升维特征函数的步骤包括:
4.根据权利要求1所述的方法,其特征在于,将控制策略的非线性优化问题转化为高维线性优化问题,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述q函数简化为:
6.根据权利要求1至5任一项所述的方法,其特征在于,以数据驱动方式使用z=(s,u)的数据样本迭代计算矩阵的更新值hi,计算所述线性增益矩阵,包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
9.一种基于迭代算法求解的机器人数据驱动控制装置,其特征在于,所述装置包括:
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
技术总结
本申请涉及一种基于迭代算法求解的机器人数据驱动控制方法和装置。所述方法包括:根据待优化的线性增益矩阵和升维特征函数,构建机器人动力学模型的控制策略;所述升维特征函数是在Koopman算子框架中将机器人的原始状态空间映射到高维特征空间,以此将控制策略的非线性优化问题转化为高维线性优化问题,定义Q函数,通过Q函数转化,以数据驱动方式使用z=(s,u)的数据样本迭代计算矩阵的更新值h<subgt;i</subgt;,计算所述线性增益矩阵,以此得到机器人动力学模型的控制策略。采用本方法能够避免引入模型误差,能够计算更优的控制策略。
技术研发人员:张兴龙,李聪,熊泉,兰弈星,周星,徐昕
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:
技术公布日:2024/12/2
技术研发人员:张兴龙,李聪,熊泉,兰弈星,周星,徐昕
技术所有人:中国人民解放军国防科技大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
