一种基于多维度社交指纹的社交网络用户识别方法及设备

本发明涉及用户识别,更具体的说是涉及一种基于多维度社交指纹的社交网络用户识别方法及设备。
背景技术:
1、随着社交网络的迅猛发展,社交网络平台上积累了大量的用户互动数据。这些数据不仅包括用户的个人信息,还包括用户之间的互动行为、发布的内容、评论、点赞等。这些丰富的数据不仅为社交网络平台提供了深刻的用户洞察,还为信息的传播和分享带来了新的机遇。然而,这也带来了一系列的问题,例如用户身份伪造、虚假账户泛滥以及恶意行为的增加等。这些问题不仅影响了社交网络的健康发展,也对用户的隐私和安全构成了威胁。
2、为了应对这些问题,用户识别成为了一项关键的技术。通过有效的用户识别方法,可以区分真实用户和虚假账户,也可以识别社交机器人用户,从而提升社交网络的安全性和可信度。现有的社交网络用户识别方法涵盖了多种途径,包括基于图论的算法、机器学习技术和众包策略等。虽然这些方法各具特色,但也存在一定的局限性。例如,图论算法擅长发现社交网络中用户的社交关系,但攻击者可能会通过伪造用户的社交关系图来躲避识别,此外,这种方法依赖的关系图是静态的,无法捕捉用户关系的动态演变。机器学习技术则可以从海量用户行为数据中提炼出社交网络用户的行为模式,进而训练识别模型,提升识别效率和精度。然而,这种方法会受到数据质量、用户行为的复杂性和社交网络动态变化的影响。众包策略在数据准确性和可靠性上具有优势,但在大规模网络中的实施可能会引发高昂的成本和隐私问题。
3、在这些多样的识别算法中,提取有效的特征是社交网络用户识别的关键,有效的特征需要能够准确地捕捉到社交网络用户的行为模式,然而,由于社交网络用户的行为和策略可能不断演变,这增加了特征工程的难度。
4、目前,基于图论的方法在社交网络用户识别中表现出一定的有效性,但多数方法仍需采集用户的多样特征数据,这不仅增加了数据采集的复杂性,而且所采集的大部分特征往往难以准确捕捉社交网络中用户关系的动态演变。因此,在提取能够精准识别社交网络用户的特征时,还需探索其在不同社交网络中的适用性,以解决当前面临的挑战。
5、例如,专利202010814842.6公开了一种社交网络中的用户识别方法、装置、设备和存储介质,依赖于图结构数据来进行分析和识别。该方法利用社交网络中的传播数据来表征用户之间的连接关系,基于上述传播数据生成图结构数据来表示用户之间的连接,然后利用图结构数据确定每个用户的属性数据,例如节点度、紧密中心性和中介中心性,最后根据用户的属性数据识别关键用户并设置相应标签。然而,该方法主要依赖于静态的图结构数据,无法充分捕捉社交网络中用户关系的动态变化。而用户的行为和关系在社交网络中是不断变化的,静态图结构可能无法反映这些变化,从而影响识别的准确性。 再例如,专利202210429087.9公开的一种基于社交网络拓扑图的关联用户身份识别方法,收集两个社交网络的数据集,其中包括用户和用户之间的好友关系。根据用户和好友关系,分别构建社交网络g-1和g-2的拓扑图。利用随机游走方法,生成节点序列集合,利用skip-gram模型将节点序列集合映射成特征空间,并学习节点的低维向量表示。通过训练得到目标特征映射矩阵,将两个特征空间映射到同一个空间,计算节点之间的相似度,识别关联用户。然而,该方法主要依赖于静态的社交网络的拓扑图,并通过图结构进行节点特征和用户关联性的计算,同样无法充分捕捉用户行为和关系的动态变化。此外,利用skip-gram模型将节点序列映射成特征空间,并训练目标特征映射矩阵,这个过程通常需要大量的计算资源和训练时间。这种计算资源的需求可能会限制该方法的可扩展性,尤其是在大规模社交网络中进行实时应用时。
6、因此,如何提供能够解决上述问题的一种基于多维度社交指纹的社交网络用户识别方法及设备,是本领域技术人员亟需解决的问题。
技术实现思路
1、有鉴于此,本发明提供了一种基于多维度社交指纹的社交网络用户识别方法及设备,构建了更具独特性和防篡改性的特征,以应对动态变化的社交网络环境,从而提高用户识别的准确性和有效性。
2、为了实现上述目的,本发明提供如下技术方案:
3、一种基于多维度社交指纹的社交网络用户识别方法,包括以下步骤:
4、s100:搜集社交网络数据;
5、s200:基于社交网络数据构建社交互动网络;
6、s300:基于社交互动网络提取用户的多维度社交指纹特征;
7、s400:利用基于所述多维度社交指纹特征构建多维度社交指纹;
8、s500:计算用户间多维度社交指纹距离,将每个未知用户与已知用户的社交指纹距离作为多维度社交指纹距离特征,并对所述多维度社交指纹距离特征的所属用户对进行分类标注,生成同一用户和不同用户的标签样本数据;
9、s600:构建xgboost识别模型,将所述多维度社交指纹距离特征输入到所述xgboost识别模型中进行训练和验证;
10、s700:通过训练好的xgboost识别模型,利用未知用户与已知用户的社交指纹距离特征进行用户识别。
11、优选的,s200包括:
12、从所述社交网络数据中提取出用户与其一跳邻居直接相连的一跳个体交互图,以及用户与其一跳邻居以及通过一跳邻居间接相连的两跳邻居的个体交互图;
13、基于两跳邻居的个体交互图构建社交互动网络。
14、优选的,s300包括:
15、基于社交互动网络提取出用户和用户对应的联系人间的多维度社交指纹特征。
16、优选的,所述多维度社交指纹特征包括:互动次数、互动互惠度、拓扑重叠、连接多样性、模体总数、联系年龄、相对新鲜度、预设时间内连续通话比例以及用户活动多样性特征。
17、优选的,s400包括:
18、将提取的多维度社交指纹特征分别按照从大到小的顺序排列,计算并返回各个多维度社交指纹特征下每个联系人的值占该特征下总特征值的比例,构建出用户在预设时间区间内的多维度社交指纹。
19、优选的,s500包括:
20、将所述社交网络按时间平均划分为不同时期,其中,划分第一时期用户为已知用户,其他时期用户为未知用户;
21、依次计算其他时期每个未知用户与第一时期的所有已知用户的社交指纹距离,并作为多维度社交指纹距离特征;
22、其中,未知用户的真实标签是已知的,若已知用户和未知用户的真实标签属于同一个用户,则将两个用户间的多维度社交指纹距离特征打标签为1,若不是同一用户,则将多维度社交指纹距离特征打标签为0,生成同一用户和不同用户的标签样本数据。
23、优选的,s600包括:
24、将标签样本数据划分为训练集、验证集与测试集;
25、将训练集中用户间的多维度社交指纹距离特征和训练集中的预设定标签输入到xgboost识别模型中进行训练;
26、通过验证集确定xgboost识别模型的最佳参数,生成最终的xgboost识别模型。
27、一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行一种基于多维度社交指纹的社交网络用户识别方法。
28、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多维度社交指纹的社交网络用户识别方法及设备,通过对社交网络上的用户数据进行处理,捕捉用户动态的多维度社交指纹特征。在网络中构建多维度社交指纹并计算用户间的社交指纹距离,并利用这些距离特征数据集对其进行分类,从而识别出用户身份。该方法仅需提取用户网络中的互动信息,便能精准识别出社交网络用户,且所构建的多维度社交指纹能够有效的反映出社交网络中用户长期且独特的互动行为。这克服了现有基于静态信息的社交网络用户识别技术所面临的难以适应动态环境的难题,显著提升了算法的时间稳定性。因此,该方法在实际系统中的应用更为便捷与高效。
技术研发人员:贾伟雯,冉义军,肖婧,许小可
技术所有人:北京师范大学珠海校区
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除