基于多视图学习的数据识别方法

2026-04-21 14:40:02 510次浏览

本发明涉及数据识别，具体涉及一种基于多视图学习的数据识别方法。

背景技术：

1、随着电信行业的快速发展和市场竞争加剧，电信客户流失成为运营商关注的焦点。预测和防止客户流失对于电信企业维持市场竞争力和提高客户满意度至关重要。研究表明，客户每流失1％，利润将减少5％-16％，并且发展新客户的成本是保留现有客户的5至10倍。因此对客户进行精准识别、避免客户流失是各运营商目前迫切解决的问题。

2、近年来学术界和业界在电信客户流失预测领域进行了大量研究，提出了多种预测模型和方法。

3、张三妞等(2023)研究了生存分析模型在电信客户流失预测中的应用，kaplan-meier(km)模型和cox比例风险模型，能够有效预测客户流失的时间点及影响因素。km模型通过无参数方式估计客户生存概率，适用于组间比较；cox模型则进一步考虑多因素影响，适用于复杂的多变量分析。这些模型不仅提高了预测的准确性，还为电信企业提供了挽留客户的策略依据。

4、梁爽(2023)研究了机器学习在电信客户流失预测中的应用。通过从历史数据中学习特征与客户流失之间的关系，实现了较高的预测准确率。这些方法在处理大规模、高维数据时表现出色，且能够捕捉复杂的非线性关系。

5、黄子璇(2023)利用注意力机制和图卷积网络，来处理电信客户流失预测问题。这些方法能够自动提取特征并捕捉复杂的时序和空间关系，进一步提高了预测的精度。此外，还有一些研究尝试将数据挖掘技术与特定算法结合，如张娟娟(2023)通过数据挖掘预处理数据和stacking集成多个分类器，取得了良好的预测效果。

6、陈立(2023)提出了一种基于cw-stacking集成算法的预测模型，针对电信客户数据的特点进行了算法优化。李毅(2023)结合了聚类随机采样和代价敏感学习，以提高不平衡数据集上的预测性能。这些研究针对电信行业的特定问题进行了算法改进和优化，进一步提升了预测效果。

7、尽管多视图数据为电信客户流失识别提供了更为全面的信息基础，但现有方法在处理多视图数据时仍存在以下问题：

8、信息冗余问题：各视图之间可能存在大量的重复信息，这些信息不仅增加了模型处理的复杂度，还可能对模型的识别效果产生负面影响。

9、表征能力不足：不同视图之间的信息互补性未能得到充分利用，导致模型的表征能力受限，难以全面捕捉影响财务欺诈的复杂因素。

10、特征提取不精确：现有方法在处理多视图数据时，往往采用简单的特征拼接或融合方式，难以精确提取各视图的关键特征及其之间的交互关系。

11、缺乏联合决策机制：各视图之间的信息在识别过程中未能形成有效的联合决策机制，导致模型的识别结果可能受到单一视图信息的误导。

技术实现思路

1、针对现有技术的不足，本发明提供了一种基于多视图学习的数据识别方法，解决了多视图数据处理信息冗余、表征能力不足、特征提取不精确、缺乏联合决策机制的问题。

2、为实现以上目的，本发明通过以下技术方案予以实现：

3、一种基于多视图学习的数据识别方法，所述识别方法包括步骤如下：

4、s1、收集电信客户的多视图特征数据，对数据进行清洗、去噪、标准化、缺失值填充操作；

5、s2、将用户特征划分为用户特征u、服务特征s、合同特征c、费用特征e，usce四个视图都是数值特征，使用数值嵌入的方法，让低维度的数值特征通过高维变换，在深度学习框架下发挥出其价值；

6、s3、为了提取多视图信息中的互补信息，将usce四个视图的表征编码输入mvesr网络，该网络包括一致性网络、互补性网络以及联合决策模块；mvesr网络在联合决策的过程中，包含了各个增强的独立视图信息、各视图交互信息以及各个增强的汇总信息；

7、s4、基于上述交互信息的提取，考虑到不同信息对分类的贡献程度不同，采用自适应权重损失融合的联合决策分类方法。

8、优选的，所述s1中，对于分类列，采用one-hot编码，将流失客户编码为1，未流失客户编码为0；

9、对于数值特征，采用k近邻法填补缺失值，实现步骤如下：

10、选择邻居：对于数据集中的每个缺失值，确定一个固定数量的最近邻样本，这些样本在特征空间中与缺失值所在样本距离最近；此数量由参数n_neighbors定义；

11、距离度量：采用适当的距离函数来量化数据点之间的相似度，常用的距离度量包括欧氏距离、曼哈顿距离；对于存在缺失值的数据点，距离计算需进行适当的调整，以确保只基于非缺失特征进行；

12、权重分配：根据样本之间的距离进行权重分配，距离越近的样本在缺失值估计中具有更高的权重；权重是均匀的或是与距离的倒数成正比；

13、缺失值估计：对于每个缺失特征，基于选定的邻居样本及其相应的权重，计算缺失值的估计；估计通过简单的算术平均或加权平均来实现；缺失值的估计可以通过以下公式表示：

14、

15、其中，wi表示第i个邻居样本的权重；

16、vi表示第i个邻居样本在缺失特征上的值；

17、k是由参数n_neighbors指定的邻居样本数量。

18、优选的，所述s2中，通过数值嵌入模块将usce四个视图的数值特征转换为向量嵌入，再利用transformer模块处理向量嵌入，最终得到高维的向量表示；单个视图的具体实现过程如公式(1)-(6)所示：

19、tj＝bj+fj(xj0∈rdfj∶xj→rd#(1)

20、

21、其中，bj是第j个特征的偏执项；

22、fj(·)是指将原特征向量与wj∈rd进行逐元素乘法；

23、是对应分类特征的one-hot编码，本文是二分类任务，欺诈企业为1，非欺诈企业为0；

24、分别将单一视图的数值特征和对应的分类特征进行高维映射，此过程中视图内部特征将会被赋予不同的权重，且彼此间信息交互，训练过程中权重矩阵会不断迭代；将高维映射后的拼接为t，此时t中同时包含数值特征和分类特征的信息；

25、t0＝stack[[cls]，t]#(5)

26、ti＝fi(ti-1)#(6)

27、利用transformer将[cls]与t合并，经过l层fi(·)变换得到tl；最终得到作为进行下游任务；表现为一种聚合的特征信息表示，不仅包含原始的特征信息，也包含了特征与特征之间的关系。

28、优选的，所述s2中，为了去除视图内的特征之间的冗余信息，采用多头注意力机制自适应的对各视图内特征编码；注意力函数将查询和一组键值对映射到输出，其中查询、键、值和输出都是向量，输出是值的加权和，每个权重都是由查询和键计算得出；对于每个特征，多头注意力会为其分配一个可训练的查询向量q，旨在提取各特征之间的相关性；查询向量q初始是随机的，随后在训练过程中得到最优；

29、本文将数值嵌入层的输出作为查询向量q∈rk×d、键向量k∈rk×d、值向量v∈rk×d的初始输入，关注各视图内部的财务欺诈特征的贡献程度；

30、

31、多头注意力机制包括多个注意力模块，每个注意力模块都有自己独立的查询、键和值的线性变换，然后将多个头的输出拼接在一起并进行最终的线性变换；多头注意力允许模型联合关注不同的子空间信息；

32、multihead(q,k,v)＝concat(head1，…，headh)wo#(8)

33、headi＝attention(qwiq,kwik,vwiv)#(9)

34、

35、是参数矩阵，随着训练过程不断优化；本文使用8个注意力头，即h＝8；在每个注意力头中有dk＝dv＝dmodel/h＝8；m＝multihead(q,k,v)∈rk×d，其中初始的将usce四个视图的数值嵌入向量分别输入四个不同的多头注意力模块，输出四个视图的表征编码mg、mo、mn、me。

36、优选的，所述s3中，为了提取不同视图间的一致性信息，使用基于相关性的对齐策略，即交互计算；基于编码层的多视图向量表示，将输入向量m∈rk×d降维表示为y∈rd，其中d＝kd；各视图交互计算如下:

37、

38、其中，v≠u；

39、表示批次矩阵乘法；

40、ψv,u(·)是输入维度为d2，输出维度为d的两层神经网络；

41、用于将映射到空间rd中；所有交互视图的一致性矩阵表示如下，其中v表示视图数量；

42、

43、对于某一视图，与其他视图之间交互，以利用增强的视图特定信息；通过与其他视图拼接，拼接后的视图再与原视图融合得到互补性信息；

44、

45、其中，fconcate(·)表示视图拼接函数；

46、是增强的视图信息；

47、⊙表示元素相加；

48、χv(·)表示输出为d维的神经网络。

49、优选的，所述s4中，决策信息集合中包含视图一致性信息yb以及v个视图的互补性信息表示如下：

50、

51、构建三层的全连接分类网络，输入结点为dm表示ym特征维度，输出为结点为分类种类c，计算每个信息的分类情况；

52、

53、为了运用各视图信息联合决策，采用多视图分类的融合损失策略，公式如下：

54、

55、其中，αm是第m个视图的权重；

56、li是样本标签的one-hot编码；

57、lm(·)是交叉熵损失，训练过程中会自适应的给各视图分配不同的权重，且每个视图学习的信息对其他视图有补充作用。

58、本发明提供了一种基于多视图学习的数据识别方法。与现有技术相比，具备以下有益效果：

59、本发明中，所述识别方法通过充分考虑多视图信息的交互关系，提取关键特征，并构建联合决策机制提高了识别准确率；通过构建视图编码器和多视图信息交互网络，有效去除各视图之间的冗余信息，减少模型处理的复杂度；通过利用数值嵌入和多头注意力机制捕捉视图内特征之间的联系和权重分配，借助多视图信息交互网络进一步挖掘视图间的互补性和一致性信息，显著增强了模型的表征能力；通过构建复杂的网络结构，精准地提取了各视图的关键特征及其之间的交互关系，为欺诈识别提供了更为精细的输入；联合决策模块的设计使得模型能够综合考虑各视图的信息及其交互关系，形成更为全面和准确的判断，避免了单一视图信息可能带来的误导；保障了电信客户流失识别的准确率。

文档序号 : 【 40164801 】

技术研发人员：丁勇,王富城,蒋翠清,王钊
技术所有人：合肥工业大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

丁勇丨王富城丨蒋翠清丨王钊丨合肥工业大学