用于工业互联网安全异常行为挖掘与分析的方法与流程

本发明涉及工业互联网安全,尤其涉及用于工业互联网安全异常行为挖掘与分析的方法。
背景技术:
1、现有技术中,工业互联网安全异常行为检测方法主要依赖于传统的规则基检测和基于签名的检测。这些方法通过预定义的规则或已知攻击签名来识别异常行为。在工业互联网环境中,通常通过网络流量分析、日志分析和设备状态监控来收集数据,并通过数据挖掘和机器学习技术进行分析,以检测潜在的安全威胁和异常行为。
2、然而,现有技术中存在一些主要的问题。首先,规则基检测和基于签名的检测方法需要频繁更新规则和签名库,无法有效检测未知的或变异的攻击行为。其次,传统方法在处理工业互联网中的海量多维度数据时,往往效率低下,容易产生误报和漏报。此外,现有技术在特征提取和数据预处理方面存在局限性,无法全面反映设备运行状态和网络行为的复杂性。
3、因此,迫切需要一种能够高效、准确地挖掘和分析工业互联网中的安全异常行为的方法,以提高系统的安全性和可靠性。
技术实现思路
1、本技术提供一种用于工业互联网安全异常行为挖掘与分析的方法,以提高工业互联网安全异常行为的检测准确性和响应速度。
2、本技术提供的用于工业互联网安全异常行为挖掘与分析的方法,包括:
3、通过安装在工业互联网各节点上的数据采集装置,实时收集工业互联网中的多维度数据,其中,所述多维度数据包括设备运行状态数据、网络流量数据、用户操作日志和传感器数据;
4、对所述多维度数据进行预处理,生成预处理后的数据集,其中,所述预处理包括数据清洗、缺失值填补、噪声过滤及数据格式标准化;
5、对预处理后的数据集进行特征提取,获得反映设备运行状态和网络行为的关键特征,其中,所述关键特征包括时序特征和频率特征;
6、通过无监督学习算法对提取的关键特征进行分析,建立工业互联网正常运行的基线模型;在工业互联网的实际运行过程中,实时采集新数据并进行预处理和特征提取,将提取的特征输入基线模型进行比较,检测出偏离基线模型的异常行为。
7、更进一步地,所述通过无监督学习算法对提取的关键特征进行分析,建立工业互联网正常运行的基线模型,包括:
8、将提取的关键特征表示为特征向量集合,其中,每个关键特征向量包括时序特征和频率特征,是关键特征的数量;
9、使用均值聚类算法对特征向量集合进行聚类分析,设定聚类数,计算特征向量集合中个特征向量到聚类中心的距离,迭代更新聚类中心,直到收敛;其中,第个聚类中心按照如下的公式(1)进行计算:
10、
11、其中,表示属于第个聚类的特征向量集合;为所述特征向量集合中特征向量的数量;为所有特征向量的均值向量;为调整参数,用于平衡聚类中心的偏移和分散度;
12、对于每个特征向量,按照如下的公式(2),计算其到最近聚类中心的距离作为异常分数:
13、
14、其中,是特征向量的异常分数;是特征向量与聚类中心之间的欧氏距离;为调整参数,用于调节欧氏距离和绝对差值的权重;表示特征向量在第个维度上的值;表示聚类中心在第个维度上的值;为特征向量的维度数;
15、对所有的异常分数进行统计分析,拟合其概率分布;根据拟合的概率分布,计算异常分数的平均值和标准差;按照如下的公式(3)计算阈值:
16、
17、其中,是检测异常行为的阈值;是异常分数的数量;是第个异常分数;
18、将异常分数小于的特征向量集合作为工业互联网正常运行的基线模型。
19、更进一步地,所述将提取的特征向量输入基线模型进行比较,检测出偏离基线模型的异常行为,包括:
20、按照如下的公式(4),计算新的异常分数,
21、
22、其中,是提取的特征对应的特征向量;
23、如果,则判定为异常行为; 否则,判定为正常行为。
24、更进一步地,所述对预处理后的数据集进行特征提取,获得反映设备运行状态和网络行为的关键特征,包括:
25、将预处理后的数据集按照固定时间窗口划分为多个子集,在每个时间窗口内按照如下的公式(5)和(6)分别计算均值和标准差:
26、,
27、其中,为时间窗口内的第个数据点;为第个数据点的权重;为第个数据点的时间戳,为时间衰减系数;为时间窗口内的数据点总数;
28、
29、其中,为时间窗口内的第个数据点;为第个数据点的权重;为第个数据点的时间戳;为时间衰减系数;为时间窗口内的数据点总数;
30、按照如下的公式(7)计算自相关系数:
31、
32、其中,为时间窗口内的第个数据点;为滞后步数;为时间窗口内的数据点总数;
33、将计算出来的均值、标准差以及自相关系数确定为时序特征;
34、对每个时间窗口内的数据应用离散傅里叶变换将时间域数据转换到频域,获得频域表示;按照如下的公式(8)计算主频率:
35、
36、将计算出来的确定为频率特征;
37、将确定的时序特征和频率特征拼接,生成反映设备运行状态和网络行为的关键特征。
38、更进一步地,所述通过安装在工业互联网各节点上的数据采集装置,实时收集工业互联网中的多维度数据,包括:
39、通过安装在工业设备上的传感器实时采集设备运行状态数据,将采集到的设备运行状态数据通过工业互联网传输到数据处理中心进行集中存储和处理;
40、通过网络流量监控设备,捕获工业互联网中的网络流量数据;对网络流量数据进行分包处理,提取数据包中的源地址、目的地址、协议类型和数据量;将网络流量数据按照时间戳进行排序,并传输到数据处理中心进行分析;
41、在用户终端和服务器上部署日志记录工具,记录用户的操作行为;将用户操作日志数据通过安全加密通道传输到数据处理中心。
42、更进一步地,所述传感器包括温度传感器、压力传感器和振动传感器。
43、更进一步地,用户的操作行为包括用户登录、退出、命令执行和文件访问。
44、更进一步地,所述对所述多维度数据进行预处理,生成预处理后的数据集,包括:
45、对收集到的数据进行初步筛选,剔除明显错误和无效的数据;
46、检查数据的完整性和一致性,对重复数据进行合并和去重;
47、对异常值和离群值进行识别和处理,确保数据的准确性。
48、更进一步地,所述对所述多维度数据进行预处理,生成预处理后的数据集,还包括:
49、对数据集中存在缺失值的部分进行分析,确定缺失值的分布和影响范围;
50、使用线性插值法对时间序列数据中的缺失值进行填补;
51、对非时间序列数据,使用均值填补法或多重插补法进行处理。
52、更进一步地,所述对所述多维度数据进行预处理,生成预处理后的数据集,还包括:
53、使用移动平均滤波器对数据进行平滑处理,减少随机噪声的影响;
54、采用高通滤波器和低通滤波器相结合的方法,对数据进行频域滤波,去除高频和低频噪声;
55、对数据进行格式标准化处理,将数据转换为统一的格式和量纲,便于后续分析和处理。
56、本技术提供的技术方案的有益效果包括:
57、(1)通过安装在工业互联网各节点上的数据采集装置,实时收集多维度数据,包括设备运行状态数据、网络流量数据、用户操作日志和传感器数据。这样可以全面监控工业互联网中的各类活动,确保数据的实时性和全面性。(2)对所述多维度数据进行预处理,生成预处理后的数据集。预处理步骤包括数据清洗、缺失值填补、噪声过滤及数据格式标准化。这些步骤大大提高了数据的质量,减少了由于数据缺失和噪声引起的误差,提高了后续分析的准确性。(3)对预处理后的数据集进行特征提取,获得反映设备运行状态和网络行为的关键特征,包括时序特征和频率特征。精准的特征提取能够更好地反映设备和网络的运行状态,为后续的异常检测提供了高质量的输入。(4)通过无监督学习算法对提取的关键特征进行分析,建立工业互联网正常运行的基线模型。无监督学习能够自动适应数据变化,建立动态的基线模型,有效应对工业互联网环境的复杂性和多变性。
技术研发人员:顾欢欢,李千目,糜靖峰
技术所有人:南京中新赛克科技有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
