基于相似性特征选择解耦的工业设备无监督异常声信号检测方法

2026-03-01 16:40:01 426次浏览

本发明属于异常声信号检测，具体涉及一种基于相似性特征选择解耦的工业设备无监督异常声信号检测方法。

背景技术：

1、在工业场景中，大部分的生产设备几乎全天候不间断地运行，设备的长时间运行导致无法简单的使用人工的方法实时检测机器的异常。因此，提前检测机器故障至关重要，可有效防止重大损害和经济损失。工业设备的声信号反应了设备运行的丰富信息，工业异常声检测的目的是识别工业机器发出的声音是正常的还是异常的。而在实际应用中，由于设备异常声音的稀缺性和多样性，很难采集足够的异常声音数据用于监督学习，因此如何在只有正常声音数据的情况下来进行异常检测成为一个关键性的问题。

2、目前，工业异常声检测主要包括自监督方法和无监督方法。自监督学习的方法通过引入额外的信息如机器id等，使模型关注于区分异常声音的特征，但在实际场景中，在没有分类标签的情况下，试图学习具有辨别性的特征仍然具有挑战；无监督学习的方法通常不需要额外的信息辅助，仅需要正常声音样本进行数据训练，进而进行异常声检测。

3、在实际场景中，除了目标机器外，还可能会存在其他机器在运行，这使得检测到的声音包含噪声或其他因素的干扰，导致正常声音和异常声音的差异很小，这大大降低了异常检测的性能。因此，从检测的声音中减少噪声和非目标声音信息并选择出目标声音信息对于工业异常声信号检测至关重要。

技术实现思路

1、针对以上问题，本发明提出了一种基于相似性特征选择解耦的工业设备无监督异常声音信号检测方法。通常，工业设备声信号受到噪声或其它干扰影响，其自身除了包含目标设备的主要信息之外，还包含了一定的冗余信息。而设备声信号的对数梅尔频谱图中含主要信息的时间帧之间往往具有相似性。基于此，本发明首先提取正常声信号的对数梅尔频谱图；然后，利用基于相似性度量的方法来计算频谱图中的每一帧与其他帧的相似性，筛选出时域中含有主要声音信息的谱图帧；接着，对于特征选择后的谱图，通过β-变分自编码器模型进行解耦，以分离出选择后的谱图帧中的潜在变化因素；模型以输入和重构输出的均方误差和kl散度作为损失函数，以均方误差作为异常分数来判断输入声音的异常与否。

2、先对本发明中的专业术语进行说明：

3、对数梅尔频谱图(log-mel spectrogram)是一种常用的音频信号处理方法，用于将音频信号转换为频率域的表示形式。生成对数梅尔频谱图的过程包括以下步骤：首先，采集音频信号并预处理(预加重、分帧、加窗)；然后，对每帧进行快速傅里叶变换(fft)，将时间域信号转换为频率域信号；接下来，计算功率谱并应用梅尔滤波器组，将功率谱转换为梅尔频谱；最后，对梅尔频谱进行对数压缩，得到对数梅尔频谱图。在对数梅尔频谱图中，时间轴上的一个维度称为“谱图帧”，每个帧代表了不同频率分量的强度或能量分布。

4、本发明解决其技术问题所采用的技术方案具体如下：

5、基于相似性特征选择解耦的工业设备无监督异常声信号检测方法，使用基于相似性度量方法从设备声信号的对数梅尔频谱图中选择一定数量的谱图帧，然后，将选择的谱图帧特征作为β-变分自编码器网络输入进行异常检测，其具体步骤如下：

6、(一)模型训练

7、步骤1，对原始声信号进行对数梅尔谱图特征提取，包括预加重、分帧、加窗、快速傅里叶变换和对数梅尔滤波，获得其对数梅尔频谱图特征x。

8、步骤2，对步骤1得到的对数梅尔频谱图进行时域特征选择，使用基于相似性度量的方法对对数梅尔频谱图对应特征矩阵x处理，通过衡量频谱图中的每一帧xi与其他帧xj(x≠j)之间的相似性，进而得到每一帧与整个对数梅尔频谱图之间的相似性。

9、步骤3，针对步骤2中计算的相似度，根据不同设备声信号的特点，选择出包含设备声信号主要信息(指能精准捕捉机器发出声音特征的信息而非噪声或其他因素的干扰)的谱图帧而降低噪声和其他因素的干扰。根据平稳声音信号的特点，选择最相似(大于设定阈值)的谱图帧；根据非平稳声音信号的特点，选择最不相似(小于设定阈值)的谱图帧；最后，将选择出的所有帧组合成一个新的谱图特征。

10、步骤4，将采集到的工业设备正常工作的声信号按步骤1-3处理，得到训练数据集xtrain＝{x1,x2,...,xn}，将采集到的工业设备正常和异常工作的声信号作为测试数据集按步骤1-3处理，得到其中，表示正常声信号经特征选择后的数据，表示异常声信号经特征选择后的数据。

11、步骤5，将步骤4中的训练集xtrain输入β-变分自动编码器进行训练。本步骤中，β-变分自动编码器由5层全连接层构成，维度为128-64-32-32-32，最终输出一个16*2维度的潜在变量。解码器则相反，维度为32-32-32-64-128，训练过程使用adam优化器进行参数优化。

12、对于本步骤的模型训练，以最小化重构误差和kl散度为损失函数，损失表示为：

13、

14、其中，x为经过特征选择后输入的特征，x'是经β-变分自编码器重构后的输出，β是控制因子，kl()为kl散度，qφ(z|x)为编码分布，p(z)为先验分布，z为潜在变量。

15、步骤6，以步骤5中的重构损失表示异常分数。根据训练数据集xtrain的异常分数，计算阈值aθ，用于测试时的异常判断。

16、(二)异常检测

17、步骤7，将测试数据集输入训练好的网络计算异常分数，并根据阈值判断是否异常。

18、优选的，步骤1中，包括预加重、分帧、加窗、快速傅里叶变换和对数梅尔滤波，具体如下：

19、步骤1.1，对于预加重，计算公式为：

20、h(n)＝1-αn-1

21、其中，n表示离散时间或序列的索引，h(n)为预加重之后的输出，α为预加重系数；

22、步骤1.2，对于分帧，帧长为l，帧移为

23、步骤1.3，对于加窗，采用汉明窗，计算公式为：

24、

25、其中，a为窗口内的样本点序号，a为窗口的长度即样本点的数量；

26、步骤1.4，对于快速傅里叶变换，将步骤1.1-步骤1.3得到的信号转换至频域，计算公式为：

27、

28、其中，e为自然对数的底数，j是虚数单位，满足j2＝-1，y(n)为加窗后的声信号，y(k1)为y(n)对应的频域信号，n为傅里叶变换的点数；

29、步骤1.5，将步骤1.4得到的频谱y(k1)，经对数梅尔滤波器处理，得到最终输出对数梅尔频谱图特征计算公式为：

30、

31、其中，r∈r1×k，r为实数集，k为帧的数量，ωm∈rd×b为梅尔滤波器组，b为通过fft获得的频谱图的每个离散频率成分，d表示维度。

32、优选的，步骤2具体如下：

33、步骤2.1，经过步骤1的处理后生成一个对数梅尔频谱图特征定义为：

34、

35、其中，xi∈rd×1,i∈[1,2,...,k]，d表示维度，k表示帧数；

36、步骤2.2，谱图中每一帧与其他帧之间的相似性表示为：

37、similarity(xi,xj),i≠j，(i,j＝[1,2,...,k])

38、步骤2.3，xi与整个频谱图之间的相似性si表示为：

39、

40、优选的，步骤3中，对于平稳声音信号，选择相似性大于设定值的谱图帧；对于非平稳声音信号，选择相似性小于设定值的谱图帧。

41、优选的，步骤5中，β-变分自动编码器由5层全连接层构成，维度为128-64-32-32-32，最终输出一个16*2维度的潜在变量；解码器的维度为32-32-32-64-128，使用adam优化器。

42、优选的，步骤5中，损失函数表示为：

43、

44、其中，x为经过特征选择后输入的特征谱图，x'是经β-变分自编码器重构后的输出，β是控制因子，kl()为kl散度，qφ(z|x)为编码分布，p(z)为先验分布，z为潜在变量。

45、优选的，步骤6中，阈值其中，x为经特征选择后的特征；k2代表经特征选择后的时间帧数；d代表数据的维度；ψt是原始输入特征在时间帧t上的表示；φ为β-变分自编码器网络；φ(ψt)是从潜在空间重构得到的潜在表示；为l2正则化。

46、优选的，步骤7中，对于一个采集到的未知声信号数据，进行如下处理判断其异常与否：

47、步骤7.1，按(一)中步骤1提取对数梅尔频谱特征矩阵

48、步骤7.2，按(一)中步骤2-3进行对数梅尔频谱特征选择。

49、步骤7.3，将步骤7.2中选择的谱图帧特征x输入β-变分自编码器，得到其重构样本x'；然后，计算重构损失作为异常分数s。

50、步骤7.4，将步骤7.3中得到的异常分数与阈值aθ对比，大于阈值aθ为异常信号，反之为正常信号，表示为：

51、

52、本发明有益效果如下：

53、无需依赖机器id进行辅助训练，训练时间短，推理速度快，内存占用少，并可以发现未知的异常现象。本发明适应性强，无需人工干预，提高了复杂音频数据的异常检测任务的效率。

54、相较于现有技术采用整个对数梅尔频谱图检测的方法，本发明可以有效筛选出对异常检测有效的声音信息，而排除噪声和其他冗余因素的干扰，增强了特征的表达能力，提高了检测效率和准确率。

文档序号 : 【 40282237 】

技术研发人员：张义,张巧灵,胡君瑶
技术所有人：浙江理工大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

张义丨张巧灵丨胡君瑶丨浙江理工大学