一种基于时空图卷积神经网络的人体性别识别方法及系统与流程

2026-05-20 09:40:07 397次浏览

本发明属于人体性别识别，具体涉及一种基于时空图卷积神经网络的人体性别识别方法及系统。

背景技术：

1、目前对于人体性别识别的研究，深度学习领域多采用采集图像或者视频并基于卷积神经网络(cnn)的方法实现，但由于图像和视频具有较大的存储容量，所以对于模型训练所需要的数据集存储量也是巨大的，用这样庞大的数据量使用cnn的方法训练模型必然耗费大量的时间。由于单个图像和视频具有较大的存储容量，而且出于存储设备、gpu设备等硬件设备和训练模型耗费时间的限制，一般使用图像和视频构建的性别识别数据集规模数量会较少，而且使用图像和视频更容易受环境复杂性和背景多样性的影响，这样的数据集训练得到的模型准确率和鲁棒性不强。

2、例如激光与光电子学进展的第58卷第16期，作者为于福生、余江等的名为《基于残差网络的虹膜图像性别分类》一文中，使用了人体虹膜的图像数据利用残差网络实现性别分类，其中所使用的中国科学院深圳先进技术研究院采集的虹膜图像数据集，包含3200张分辨率为640×480的虹膜图像，图像文件总大小大约为4gb左右，这还仅仅是小规模的数据集。计算机工程与科学的第43卷第5期，作者为陈文兵、李育霖等的名为《一种基于cnn-se-elm的年龄和性别识别模型》一文中，介绍了一种基于cnn的理论使用人脸图像实现性别识别的方法，其中实验过程所使用的数据集为imdb-wiki人脸数据集和adience人脸数据集，imdb-wiki人脸数据集包含两部分总共523051幅人脸图像。adience人脸数据集是志愿者通过手机拍摄后上传的照片整合得到的，总共26580幅图像，由于是手机拍摄图像，所以必然存在光照、噪声、姿态和遮挡等因素的干扰。现代计算机的第24期，作者为阴紫薇与陈淑荣的名为《基于双路卷积神经网络的人脸性别识别》一文中，通过构建一种双路卷积神经网络，实现了对卷积神经网络的改进，解决了部分无关因素的干扰问题，其训练模型所使用的数据集为adience数据集、wiki数据集(一个包含将近46万张尺寸为250×300大小的图像数据集)以及feret数据集(包含1400幅尺寸为80×80大小人脸图像的数据集)。

3、综合以上对性别识别领域的文献调研可知，当前针对性别识别方向进行的研究所使用的方法大多都是基于卷积神经网络(cnn)理论并使用图像数据集进行实验并训练模型，这样的数据集规模十分庞大，数据量之大非常惊人，同时图像数据所包含过多的干扰因素(光照、遮挡等)。使用这样庞大数据量的数据集训练模型对gpu等硬件要求也非常高，模型训练时长也非常长，而且由于无关干扰因素的存在使得训练得到的模型精度也会受到一定程度的影响，进而运用此训练得到的模型，得到的结果准确率也相应降低。

技术实现思路

1、本发明的目的在于提供一种基于时空图卷积神经网络的人体性别识别方法及系统，用以解决现有基于图像数据输入网络模型得到人体性别识别结果的方法，因在网络模型训练时所使用的数据集容量大，导致训练效率低，且由于无关干扰因素的存在使得训练得到的模型精度低，进而运用此训练得到的模型，得到的结果准确率也相应降低的问题。

2、为解决上述技术问题，本发明提供了一种基于时空图卷积神经网络的人体性别识别方法，包括如下步骤：

3、1)获取待人体性别识别的视频数据；

4、2)将该视频数据进行预处理，以获取该视频数据对应的人体骨架时空图数据；

5、3)将该人体骨架时空图数据先进行归一化处理后，再输入至训练好的改进stgcn网络模型中，得到人体骨架时空图数据的分类结果；所述改进stgcn网络模型的改进点在于使用的全连接层为二分类功能的全连接层；

6、4)根据得到的分类结果对人体性别进行判断。

7、其有益效果为：本发明的方法发现由于男女生理性差异，使得男性和女性身体不同部位的骨架比例和动作变化情况存在加大差异，因此能够通过识别人体不同部位的骨架比例或动作变化情况的方式，来实现基于人体骨架判断人体性别的过程。而本发明通过将获取的视频数据进行处理，得到相应的人体骨架时空图，并通过改进stgcn网络模型得到人体骨架时空图的分类结果，本发明对stgcn网络模型的改进是将全连接层改进为具有二分类功能的全连接层，进而将人体骨架时空图输入改进stgcn网络模型后，输出的分类结果是两种分类结果中的其中一种(即两种分类结果中的一种分类结果对应于一种人体性别)，因此基于得到的分类结果能够对人体性别进行判断。因本发明是采用改进stgcn网络模型实现人体性别识别，而改进stgcn网络模型在训练时，所使用的数据集为人体骨架时空图数据集，而在相同的数据集数量下人体骨架时空图数据相较于现有的图像数据(例如虹膜图像数据或人脸图像数据)，人体骨架时空图数据的存储量小，因此基于人体骨架时空图数据集，在模型训练过程中所耗费的时间也随之减小，并且人体的骨骼和关节轨迹对光照变化和场景变化具有鲁棒性，即人体骨架时空图数据能够屏蔽背景、光线等无关因素造成的影响，因此不仅在对改进stgcn网络模型的训练时，能够提高训练效率以及模型的精度，还能够在运用训练好的改进stgcn网络模型进行人体性别识别时，保证识别的准确性。本发明还考虑到由于人体骨架时空图的不同节点之间需要共享权重，所以要保持输入数据的连贯性，因此本发明在人体骨架时空图数据在输入模型之前必须先进行一个数据归一化的过程，对数据进行归一化处理，进而保证最终输出结果的准确性。

8、进一步地，步骤2)中，所述预处理为：通过使用姿态估计算法对视频数据进行姿态估计。

9、本发明是运用简便的姿态估计算法，实现视频数据转换为人体骨架时空图数据的过程，即通过简便的方式获取人体骨架时空图数据的过程，来提高整个人体性别识别过程的识别效率。

10、进一步地，在对改进stgcn网络模型进行训练时，所使用的数据集为：在现有的rgb视频数据集中选取视频数据，进行预处理以将选取的视频数据转换为对应的人体骨架时空图数据，将得到的人体骨架时空图数据作为所使用的数据集。

11、因没有大型的性别识别公开数据集，所以本发明在对改进stgcn网络模型进行训练时，需要制作本发明中所需要的数据集，而本发明中所需要的数据集是基于在现有的rgb视频数据集中选取的数据进行相应处理后，使得现有的rgb视频数据集转换为本发明所需要的人体骨架时空图数据集，进而利用该数据集对改进stgcn网络模型进行训练。因本发明是对现有数据集进行相应处理得到本发明所使用的数据集，因此相较于重新采集数据来形成数据集的方式，本发明得到训练所使用的数据集的方式更加便捷，进而减少训练所使用的数据集的获取时间，提高从获取训练集到对模型训练结束整个过程的效率。

12、进一步地，改进stgcn网络模型在训练时，通过迁移学习先确定改进stgcn网络模型中除全连接层之外其余网络层的权重参数后，再对改进stgcn网络模型进行训练。

13、迁移学习最大的优点是可以在保证模型精度不变或者小幅度提升的前提下利用小样本数据训练模型，这样做提升了模型的学习效率，避免模型从零开始学习，大大减少了冗余的工作。并且本发明考虑到学习任务的不同，在加载初始权重参数时加载除全连接层之外其他网络层的权重参数，迁移学习时只训练全连接层的权重参数。

14、进一步地，改进stgcn网络模型在训练时，通过迁移学习进行改进stgcn网络模型中指定的时空卷积层的参数优化。

15、本发明在迁移学习时只训练全连接层的权重参数，但在参数优化的过程中，还针对指定的时空卷积层的参数的权重参数进行训练优化，即只加载已有模型网络的非指定部分的权重参数进行迁移学习，以此对指定的时空卷积层的参数优化的方式，来提高网络模型的精度，进而提高运用此模型得到的人体性别识别结果的准确性。

16、为解决上述技术问题，本发明还提供了一种基于时空图卷积神经网络的人体性别识别系统，包括用于获取待人体性别识别的视频数据的检测模块，以及处理模块，所述检测模块还用于将获取的视频数据传输至处理模块，所述处理模块用于将该视频数据进行预处理，以获取该视频数据对应的人体骨架时空图数据；并将该人体骨架时空图数据先进行归一化处理后，再输入至训练好的改进stgcn网络模型中，得到人体骨架时空图数据的分类结果，再根据得到的分类结果对人体性别进行判断；所述改进stgcn网络模型的改进点在于使用的全连接层为二分类功能的全连接层。

17、其有益效果为：本发明发现由于男女生理性差异，使得男性和女性身体不同部位的骨架比例和动作变化情况存在加大差异，因此能够通过识别人体不同部位的骨架比例或动作变化情况的方式，来实现基于人体骨架判断人体性别的过程。而本发明通过将获取的视频数据进行处理，得到相应的人体骨架时空图，并通过改进stgcn网络模型得到人体骨架时空图的分类结果，本发明对stgcn网络模型的改进是将全连接层改进为具有二分类功能的全连接层，进而将人体骨架时空图输入改进stgcn网络模型后，输出的分类结果是两种分类结果中的其中一种(即两种分类结果中的一种分类结果对应于一种人体性别)，因此基于得到的分类结果能够对人体性别进行判断。因本发明是采用改进stgcn网络模型实现人体性别识别，而改进stgcn网络模型在训练时，所使用的数据集为人体骨架时空图数据集，而在相同的数据集数量下人体骨架时空图数据相较于现有的图像数据(例如虹膜图像数据或人脸图像数据)，人体骨架时空图数据的存储量小，因此基于人体骨架时空图数据集，在模型训练过程中所耗费的时间也随之减小，并且人体的骨骼和关节轨迹对光照变化和场景变化具有鲁棒性，即人体骨架时空图数据能够屏蔽背景、光线等无关因素造成的影响，因此不仅在对改进stgcn网络模型的训练时，能够提高训练效率以及模型的精度，还能够在运用训练好的改进stgcn网络模型进行人体性别识别时，保证识别的准确性。本发明还考虑到由于人体骨架时空图的不同节点之间需要共享权重，所以要保持输入数据的连贯性，因此本发明在人体骨架时空图数据在输入模型之前必须先进行一个数据归一化的过程，对数据进行归一化处理，进而保证最终输出结果的准确性。

18、进一步地，所述预处理为：通过使用姿态估计算法对视频数据进行姿态估计。

19、本发明是运用简便的姿态估计算法，实现视频数据转换为人体骨架时空图数据的过程，即通过简便的方式获取人体骨架时空图数据的过程，来提高整个人体性别识别过程的识别效率。

20、进一步地，在对改进stgcn网络模型进行训练时，所使用的数据集为：在现有的rgb视频数据集中选取视频数据，进行预处理以将选取的视频数据转换为对应的人体骨架时空图数据，将得到的人体骨架时空图数据作为所使用的数据集。

21、因没有大型的性别识别公开数据集，所以本发明在对改进stgcn网络模型进行训练时，需要制作本发明中所需要的数据集，而本发明中所需要的数据集是基于在现有的rgb视频数据集中选取的数据进行相应处理后，使得现有的rgb视频数据集转换为本发明所需要的人体骨架时空图数据集，进而利用该数据集对改进stgcn网络模型进行训练。因本发明是对现有数据集进行相应处理得到本发明所使用的数据集，因此相较于重新采集数据来形成数据集的方式，本发明得到训练所使用的数据集的方式更加便捷，进而减少训练所使用的数据集的获取时间，提高从获取训练集到对模型训练结束整个过程的效率。

22、进一步地，改进stgcn网络模型在训练时，通过迁移学习先确定改进stgcn网络模型中除全连接层之外其余网络层的权重参数后，再对改进stgcn网络模型进行训练。

23、迁移学习最大的优点是可以在保证模型精度不变或者小幅度提升的前提下利用小样本数据训练模型，这样做提升了模型的学习效率，避免模型从零开始学习，大大减少了冗余的工作。并且本发明考虑到学习任务的不同，在加载初始权重参数时加载除全连接层之外其他网络层的权重参数，迁移学习时只训练全连接层的权重参数。

24、进一步地，改进stgcn网络模型在训练时，通过迁移学习进行改进stgcn网络模型中指定的时空卷积层的参数优化。

25、本发明在迁移学习时只训练全连接层的权重参数，但在参数优化的过程中，还针对指定的时空卷积层的参数的权重参数进行训练优化，即只加载已有模型网络的非指定部分的权重参数进行迁移学习，以此对指定的时空卷积层的参数优化的方式，来提高网络模型的精度，进而提高运用此模型得到的人体性别识别结果的准确性。

文档序号 : 【 40163772 】

技术研发人员：凌路加,杨辉,李永亮,陈强,万首丰,肖亮,陈豆
技术所有人：许继集团有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

凌路加丨杨辉丨李永亮丨陈强丨万首丰丨肖亮丨陈豆丨许继集团有限公司