一种用于分类不平衡流数据的新型主动学习方法

2026-05-15 13:40:01 385次浏览

本发明属于机器学习，尤其涉及一种用于分类不平衡流数据的新型主动学习方法。

背景技术：

1、近年来在数据收集、处理和分析方面的进步揭示了机器学习中的重大挑战，特别是对于那些为静态数据集设计的传统算法。相比之下，现代数据来源持续以高速流动大量信息，传统方法由于在速度、灵活性和韧性方面的局限而难以应对。

2、数据流是一个理想情况下应当在到达时即刻分析的持续数据流，这与侧重于静态数据子集的传统数据挖掘不同。在数据持续生成的环境中，实时分析至关重要，它能够实现即时洞察和及时决策，这在动态情况下至关重要。然而，数据流要求算法能够快速处理，以防止延迟和数据丢失，通常只能对数据进行单次处理，并且由于其潜在的无限性，这些算法操作的内存有限。

3、此外，数据流的特点是其变异性。传统机器学习假设在代表性数据子集上训练的模型在未来仍将有效，因为未来数据将与过去相似。然而，数据流可能不可预测地变化，改变数据特征和决策边界。这种现象，被称为“概念漂移”，指的是目标变量的统计属性的变化，影响各种实际应用，并需要随时间对模型进行调整。例如，在金融行业，防欺诈模型必须不断进化，因为欺诈者会改变策略。在零售行业，顾客偏好模型必须适应变化的趋势和外部影响。

4、此外，“概念演变”也带来了重大挑战，指的是完全未观察到的新模式或标签的出现。这需要检测和适应全新的概念。例如，在twitter和instagram等社交媒体平台上，新趋势可以迅速出现，而在医疗保健领域，检测新的病原体如covid-19病毒需要对诊断模型进行调整。

5、数据流中的类别不平衡，即类别分布不均且动态变化，进一步加剧了这些挑战。在这种环境下，不仅类别定义在演变，类别比例和类别的角色也会随时间变化。此外，数据流中标签的稀缺性也带来了重大挑战，因为在实时获得标记数据可能既困难又昂贵。这种稀缺性使得训练和更新模型变得复杂，难以在不断变化的数据环境中实现准确可靠的预测。

技术实现思路

1、本发明目的在于提供一种用于分类不平衡流数据的新型主动学习方法，以解决上述的技术问题。

2、为解决上述技术问题，本发明的一种用于分类不平衡流数据的新型主动学习方法的具体技术方案如下：

3、一种用于分类不平衡流数据的新型主动学习方法，包括如下步骤：

4、s1：构建知识库；提出一种使用多窗口知识库的新策略，为每个数据类别建立一个独立的、固定大小的窗口；

5、s2：基于最近邻原则的提出分类策略；通过使用基于实例的懒惰学习框架集成来应对数据流的动态性；

6、s3：提出新标签检测方法；通过使用亲和力矩阵来衡量实例之间的关系动态，并随后识别表示潜在新类别的异常群集的新类别识别方法；

7、s4：在线更新更新知识库；识别和分类新到达的数据实例，如果发现足够的新类实例，则为新类创建一个单独的窗口并插入到知识库中，适合现有类别的实例根据s2中的方法进行分类。

8、进一步的，s1所述知识库包括每个类别的单独窗口，表示为kb＝{w1,w2,…wc}，其中c代表到目前为止识别的类别总数，在每个窗口中，数据样本存储为四元组：(x,label,ω,ωca)，其中x是数据样本，label表示真实或预测的类别，如果未知则保持未定义，ω是分配给样本的权重。

9、进一步的，s2所述集成包括多个k最近邻k-nn分类器，集成内部的多样性由参数θ控制，该参数确定k-nn分类器的数量：

10、θ＝1：使用单个k-nn分类器，1-nn或3-nn。

11、θ＝2：包括两个不同的k-nn分类器，即1-nn和3-nn。

12、θ＝3：涉及四个不同的k-nn分类器，具体为1-nn，3-nn，5-nn和7-nn；

13、在每个决策点，都会对传入的实例xi由集成中的每个分类器进行评估，选择最佳分类器是通过评估过去的性能指标来指导的，

14、性能指标，表示为π，用于在时间ti评估每个k-nn分类器的平均分类精度，计算如下：

15、

16、其中，m代表用于此评估的最新标记示例的数量，指示函数i输出1，如果分类器的预测是正确的，与真实标签yi匹配，否则输出0；

17、最大化所有分类器的性能权重π：

18、bestk＝argmaxk(πk-nn)

19、表现出最高权重的分类器bestk被选用来预测测试实例xi的类标签：

20、p_label(xi)＝bestk-nn(xi)。

21、进一步的，s3所述方法包括如下关键阶段：

22、s3.1构建亲和力矩阵；

23、每对实例之间的亲和力使用高斯核函数计算，定义如下：

24、

25、其中‖xi-xj‖表示实例i和j的特征向量之间的欧几里得距离，σ是一个比例参数，这个参数将基于数据自适应确定；

26、s3.2：σ的自适应确定；

27、最初，σ使用启发式设置，一旦计算出亲和力矩阵w，σ将更新为w中所有非零条目的中位数，确保σ反映数据集中的典型距离，然后使用这个更新的σ重新计算亲和力矩阵；

28、s3.3：亲和力的修改和规范化；

29、根据局部密度度量或其他相关特征修改每个亲和力：

30、

31、这里，γ为一个正则化参数控制修改的程度；

32、s3.4：不相似度矩阵计算和求和；

33、从亲和力矩阵w中，派生出一个不相似度矩阵d，其中每个条目为：

34、

35、对于每个实例，通过对其行中的值求和来计算不相似度分数：

36、

37、具有高si值的实例表明与大多数其他实例的亲和力较弱，表明它们可能是新类别的一部分；

38、s3.5：高不相似度实例的聚类；

39、具有高不相似度分数的实例被视为形成新类别的候选者，这些实例接受聚类算法的处理，以确定它们是否聚集成与已知类别分开的独立群组，根据不相似度分数分布和d的规模选择聚类参数；

40、s3.6：新类别识别；

41、比较每个群集的统计和特征空间属性与已知类别，如果一个群集的属性与现有类别的属性显著不同，它将被标记为新类别。

42、进一步的，所述s4包括：

43、s4.1：主动学习：

44、引入一种称为c最近邻cnn的策略，其中c代表类别总数，当新的数据批次bt到达时，cnn策略识别知识库中最近的已标记点，即x′1,x′2,x′3,,…,x′c，这些点投票以确定每个新的、未标记样本的不确定性，投票机制由以下公式描述：

45、

46、其中yj代表已标记邻居的类标签，是一个指示函数，如果yj等于c则返回1，否则返回0；

47、

48、如果两个或更多的类别获得最高且相同的票数，样本被认为是不确定的，使用以下等式进行进一步分析：

49、

50、如果满足此条件，表明邻居之间对样本类别有多数共识，如果投票分歧，则该样本将被标记为需要进一步审查，可能查询用户的实际标签以避免由错误的伪标记引入的错误。

51、进一步的，引入一种概念适应策略：

52、类别y的不平衡指标，表示为imb_y，由以下公式确定：

53、

54、其中count(y)是类别y的实例数量，sizelab是标签窗口的大小，c是类别数量；

55、将随机选择策略与不确定性方法结合起来，随机策略无差别地从数据流中选择实例进行标记，覆盖实例空间的所有区域。

56、进一步的，所述s4包括s4.2：知识库数据管理：

57、使用衰减窗口模型，在这个模型中，每个新实例以ω＝1的权重进入窗口，随着新数据的到来，知识库中每个现有实例的权重乘以一个常数衰减因子δ∈[0,1]，这种权重的逐渐减少使得模型能够更重视最近的数据，帮助其动态适应数据趋势的变化；

58、采用基于查询的复兴机制，重新评估用作最近邻居预测的实例的相关性，如果这些实例有助于准确预测，它们的权重将恢复到全强。如果预测不正确，它们的权重将减半。

59、修剪实例：当窗口达到其容量时，通过移除权重减少到接近零的实例来管理新数据的插入，从而为新数据腾出空间，如果没有这样的实例存在，我们通过平均它们的数据点合并两个最近的实例；

60、对于数据插入，带有已知标签的实例直接以元组格式(x,label＝c,ω＝1,ωca＝1)添加到相应的类别窗口中，对于没有已知标签的实例，它们被放置在最近的类别窗口中，以未定义的元组标记(x,label＝φ,ω＝1,ωca＝1)。

61、本发明的一种用于分类不平衡流数据的新型主动学习方法具有以下优点：

62、本发明方法有效地适应了实时数据流的动态挑战。该方法的核心是一个先进的数据管理系统，该系统使用复杂的结构创建紧凑的数据摘要，这对于克服内存限制至关重要。该方法使用多窗口知识库，为每个数据类设置单独的固定大小窗口，以保持独特的结构并有效地解决不平衡问题。此外，它还包括一组动态调整以适应数据变化性的k-最近邻(k-nn)分类器。主动学习部分通过混合使用不确定性和随机抽样，专注于代表性不足的类别，优化了有限标签资源的使用。这种全面的策略不仅解决了数据变化性、新标签和类别不平衡的问题，还提高了标签过程的效率，确保在动态数据环境中实现高准确性和适应性。

文档序号 : 【 40163937 】

技术研发人员：乌丁·萨拉赫,杨勤丽,邵俊明
技术所有人：电子科技大学长三角研究院（湖州）

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

乌丁·萨拉赫丨杨勤丽丨邵俊明丨电子科技大学长三角研究院（湖州）