一种考虑动态约束的深度矩阵分解的数据补全方法及系统

本发明属于工业信息化,尤其涉及一种考虑动态约束的深度矩阵分解的数据补全方法及系统。
背景技术:
1、随着工业信息化的推进,大量数据被采集并用于生产过程的监控、优化和预测。然而,由于设备故障、传感器异常等原因,数据中常常存在缺失,这些缺失严重影响了数据分析和模型训练的准确性。
2、目前传统的缺失数据补全方法主要有常值填充、回归填补、多重插补等。这些方法虽然操作简单便携,但是通常只考虑数据之间的简单关系,未能有效捕捉数据的复杂结构,并且在处理大规模数据集时,计算复杂度和时间开销较大,导致其应用受限。针对传统缺失数据补全方法的不足,有学者提出了稀疏矩阵补全的概念。常用的稀疏矩阵补全方法包括矩阵分解、优化算法以及机器学习方法等。这些矩阵补全方法都属于线性补全方法,当遇到高度非线性的数据时,由于它们都局限于低秩假设,所以很难提供准确的结果。
3、为了更好地补全高度非线性数据。第一种方式为利用非负矩阵分解来处理多个相关数据集或模式中存在缺失值的情况,并通过多流形正则化和非负矩阵分解,捕获和建模多视图数据中的复杂非线性关系;第二种方式为基于协同过滤来处理制造过程中具有非线性不等式约束的数据恢复问题,利用传感器数据之间的相关性,确保恢复的数据满足指定的非线性约束;第三种方式为一种核稀疏贝叶斯矩阵分解方法,通过引入核函数来捕获和建模数据中的非线性关系,有效地处理缺失值和噪声。但是这三种方式都没有考虑数据矩阵高度不完整的情况,例如,数据缺失率达到80%。因此,非线性数据中存在大量缺失,则无法保证高精度的数据补全结果。
4、深度矩阵分解(deep matrix factorization model,dmf)为高效处理高度不完整的数据提供了可能,dmf模型将矩阵分解与深度神经网络相结合,使用不同的人工神经网络(artificial neural network,ann)来实现,比如多层感知器(multilayer perceptron,mlp)、卷积神经网络(convolutional neural networks,cnn)和递归神经网络等。dmf基于非线性潜在变量模型,可以恢复结构中具有非线性特征的数据矩阵,能够有效处理高度缺失的数据,已经成功应用到推荐系统、图像处理等领域。但是,当缺失的数据块正好位于数据突变位置时,无法保障数据的补全效果。在过程工业中,样本数据是存在剧烈变化的,数据突变位置的关键数据点的缺失,在进行补全时无法保证补全精度。
技术实现思路
1、为了弥补现有技术的缺陷,本发明提供了一种考虑动态约束的深度矩阵分解的数据补全方法及系统。
2、为了解决上述技术问题,本发明所采用的技术方案是:
3、第一方面,提供一种考虑动态约束的深度矩阵分解的数据补全方法,包括:
4、获取原始完整数据集,对原始完整数据集进行数据缺失处理,得到缺失处理数据集;
5、对缺失处理数据集进行标准化预处理;
6、使用标准化预处理后的缺失处理数据集,训练得到考虑动态约束的深度矩阵分解模型;
7、当接收到缺失数据的当前数据集时,通过考虑动态约束的深度矩阵分解模型对当前数据集进行数据补全。
8、进一步的,获取原始完整数据集,对原始完整数据集进行数据缺失处理,得到缺失处理数据集,包括:
9、获取原始完整数据集;
10、根据原始完整数据集得到原始完整矩阵;
11、通过预置掩码矩阵与原始完整矩阵进行点乘运算,得到原始稀疏矩阵;预置掩码矩阵为根据数据缺失情况预先设置的,原始稀疏矩阵为缺失处理数据集。
12、进一步的,预置掩码矩阵包括第一掩码矩阵和第二掩码矩阵,第一掩码矩阵为根据规律性数据缺失情况设置的,第二掩码矩阵为根据大片段数据缺失情况设置的。
13、进一步的,对缺失处理数据集进行标准化预处理,包括:
14、采用标准分数z-score对原始稀疏矩阵进行标准化预处理。
15、进一步的,使用标准化预处理后的缺失处理数据集,训练得到考虑动态约束的深度矩阵分解模型,包括:
16、根据标准化预处理后的原始稀疏矩阵y∈rm×n得到原始稀疏矩阵的表达式:
17、y=uv=f(v)=g(wv+b);
18、m表示行;n表示列;u和v为原始稀疏矩阵y分解得到,且u∈rm×k及v∈rk×n;f(·)表示非线性映射,并对v∈rk×n中的每一列执行;g(x)表示激活函数,w是人工神经网络中的权重矩阵,b是人工神经网络中的偏置向量;
19、将预设稀疏矩阵的数值随时间发生变化得到新稀疏矩阵建模得到新稀疏矩阵的表达式为:
20、
21、通过差分运算计算新稀疏矩阵中的每个数据点的数据变换速率;
22、将数据变换速率作为动态约束条件,训练出考虑动态约束的深度矩阵分解模型。
23、进一步的,通过差分运算计算新稀疏矩阵中的每个数据点的数据变换速率,包括:
24、新稀疏矩阵中观测部分的数据点为y(t1),y(t2),...,y(tn);
25、对于第1个初始数据点y(t1)和第n个结束数据点y(tn)之外的第i个中间数据点y(ti),使用中心差分法估计y(ti)的导数为:
26、
27、对初始数据点y(t1)使用向前差分法计算对应时间t1处的导数为:
28、
29、对结束数据点y(tn)使用向后差分法计算对应时间tn处的导数为:
30、
31、将每个数据点的导数作为对应数据点的数据变换速率。
32、进一步的,将数据变换速率作为动态约束条件,训练出考虑动态约束的深度矩阵分解模型,包括:
33、将数据变换速率作为动态约束条件,构建出初始模型表达式:
34、
35、其中,π(f)是对f(·)的惩罚项;λ是正则化参数;β是对v的惩罚的正则化参数;表示hadamard乘积;m为预置掩码矩阵,mij=1时,对应原始稀疏矩阵中的位置的数据不缺失;mij=0时,对应原始稀疏矩阵中的位置的数据缺失;ρ为可调节的超参数;
36、将初始模型表达式中的f(·)使用人工神经网络进行逼近处理,得到近似初始模型表达式的第一模型表达式:
37、
38、其中,w∈rm×k表示权重矩阵,b∈rm表示偏置向量,mi表示m的第i列,yi表示y的第i列,vi表示v∈rk×n的第i列,λ是权重衰减参数;
39、将第一模型表达式的单层人工神经网络进行深层升级后,得到第二模型表达式:
40、
41、其中,ψ(j)={w(j),b(j)},g(j)(x,ψ(j))=g(j)(w(j)x+b(j)),j=1,2...,h+1,h为隐藏层数;
42、将第二模型表达式作为考虑动态约束的深度矩阵分解模型的表达式。
43、第二方面,提供了一种考虑动态约束的深度矩阵分解的数据补全系统,其特征在于,包括:
44、缺失处理模块,用于获取原始完整数据集,对原始完整数据集进行数据缺失处理,得到缺失处理数据集;
45、标准化处理模块,用于对缺失处理数据集进行标准化预处理;
46、模型训练模块,用于使用标准化预处理后的缺失处理数据集,训练得到考虑动态约束的深度矩阵分解模型;
47、数据补全模块,用于当接收到缺失数据的当前数据集时,通过考虑动态约束的深度矩阵分解模型对当前数据集进行数据补全。
48、本发明所达到的有益效果:
49、将数据变化速率作为动态约束条件来提高模型对缺失数据的补全能力,考虑了数据随时间的变化情况,强调了数据的动态特性而不仅仅是静态数值,通过约束数据变化速率,考虑动态约束的深度矩阵分解模型被引导去理解数据的动态变化规律,从而提高数据的补全精度。
技术研发人员:李勇刚,贺婧秀,季志毅,阳春华,李东
技术所有人:中南大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
