基于大语言模型的药械化网络风险监测方法和系统与流程

本发明涉及药械化网络风险监测,具体为基于大语言模型的药械化网络风险监测方法和系统。
背景技术:
1、随着互联网的发展,近年来药械化互联网经营、流通产业发展迅猛,药品、医疗器械和化妆品通过互联网平台进行销售随处可见,针对蓬勃发展的互联网经济,也为监管部门带来了较大的监管难题与挑战,部分商家可能销售商品之后,面对众多的评价数据,难以对评价数据进行有效筛选和分类,并且由于用户对产品的质量评价不一,若不及时进行筛选,会导致商家难以发现产品的质量不足之处,若不及时加以改进,会导致消费者针对药械化产品的负面评价进一步增长,所以,在售卖之后针对评价数据进行解析,及时发现并警告有风险的销售行为,并加以改正,能帮助消费者更加放心的购买产品,提升商家竞争优势。
2、然而,现有数据存在来源零散,数据质量不高的问题,导致无法及时准确掌握监管底数及发现有风险的销售行为。所以,对商家的销售数据,以及用户对药械化产品的评价数据进行规整并解析,发现其中有用的数据,及时识别和预警具有风险的销售行为,同时为商家进一步改进产品提供重要参考至关重要。
技术实现思路
1、本发明的目的在于提供基于大语言模型的药械化网络风险监测方法和系统,以解决上述背景技术中提出的问题。
2、为了解决上述技术问题,本发明提供如下技术方案:
3、基于大语言模型的药械化网络风险监测方法,包括以下步骤:
4、步骤s100:确定监测的药械化产品,采集所述药械化产品在网络销售后的评价数据,根据大语言模型,对其中的特征评价数据进行判断提取,并将发布所述特征评价数据的用户作为特征用户;
5、步骤s200:根据大语言模型,对特征用户发布的评价数据进行分析,从特征用户中筛查出有效用户,并将有效用户发布的特征评价数据作为关键评价数据;
6、步骤s300:采集所述药械化产品的宣传信息,根据大语言模型,得到若干产品特征数据,并得到每一产品特征数据对应的关联评价数据;
7、步骤s400:根据大语言模型,对产品特征数据对应的关联评价数据进行分析,得到关联评价数据与对应的产品特征数据之间的编辑距离,并根据所述编辑距离,将产品特征数据分为不同等级,并进行不同的预警提示。
8、进一步的,步骤s100包括:
9、步骤s110:所述评价数据为文本评价数据;预先训练大语言模型,所述大语言模型用于提取评价数据中的关键词;
10、步骤s120:获取所述药械化产品对应的评价数据re,若评价数据re的内容不为空,得到评价数据re对应的文字数量nocre和关键词数量kwqre,若满足nocre≥noc0且kwqre≥kwq0,noc0和kwq0分别为文字数量阈值和关键词数量阈值,则将评价数据re作为特征评价数据,并将发布所述评价数据re的用户作为特征用户furre。
11、由于用户在收到商品后,会存在部分用户不评价或评价的内容无参考价值的情况,并且不评价的数据比较多,所以需要先对空的评价数据的筛选掉,进而将内容无参考价值的评价筛选掉,剩下有参考价值的评价。
12、进一步的,步骤s200包括:
13、步骤s210:以特征评价数据re对应的发布时刻作为起点时刻,获取以起点时刻开始,往前时间段copre内对应的特征用户furre的所有评价数据;将时间段copre按照时间先后顺序分为t个子时间段,则第t个子时间段对应的特征权值为其中,1≤t≤t;将第t个子时间段对应的评价数量作为qt,得到特征用户furre的评价集中系数并进行归一化;
14、评价集中系数表征了近期用户发布评价的密集情况,集中系数越大,说明用户近期评价的数量越多,那么此类客户最有存在虚假的评价数据的可能,存在虚假的评价数据的客户就不能为有效客户。
15、步骤s220:若满足ctfre>ctf0且qt>q0>2,随机获取第t个子时间段内的q条随机评价数据,并通过大语言模型,得到每一随机评价数据对应的所有关键词,其中,ctf0为集中系数阈值,qt为第t个子时间段对应的评价数量,q0为评价数量阈值,q>2;分别获取相邻的第q和第q+1条随机评价数据对应的关键词集合kwq和kwq-1,1≤q<q+1≤q,并将集合kwq和kwq-1中关键词数量最小和最大的集合记为kwmin和kwmax;
16、步骤s230:所述大语言模型还用于计算任意两个关键词之间的语义相似度,并将语义相似度的结果进行归一化;设置初始关联系数为0,以kwmin对应的第1个关键词为参照词,根据大语言模型,若存在kwmax中的任一关键词与所述参照词的语义相似度,大于相似度阈值,则关联系数加1,以此类推,得到最终的关联系数将集合kwmin对应的关键词数量作为cnmin,得到第q和第q+1条随机评价数据对应的评价相似度为:
17、
18、本方案中,大语言模型为词向量模型,大语言模型是指一类能够处理自然语言的模型,而词向量模型是其中的一种,现有word2vec能够实现计算两个词语之间的语义相似度,具体的技术可通过余弦相似度得到,并将语义相似度进行归一化,在此不在赘述具体实现过程;
19、步骤s240:进而根据所有相邻的随机评价数据对应的评价相似度,得到特征用户furre对应的评价数据相似度dasre,若dasre>das0,das0为评价数据相似度阈值,将特征用户furre作为非正常用户,将除了非正常用户的其余特征用户作为有效用户。
20、进一步的,步骤s300包括:
21、步骤s310:所述药械化产品的宣传信息包括文本信息和图片信息,从图片信息中提取出文本数据,并结合文本信息进行解析,得到宣传内容对应的每一产品特征数据,并提取每一产品特征数据中的若干关键词,以及每一关键评价数据中的若干关键词;
22、从图片信息和视频中提取文本信息为现有技术,可根据ocr(光学字符识别)技术、videosrt等技术实现。
23、产品特征数据是为商家为了做宣传,在销售界面上用文字、图片或视频形式展现的产品的优势之处,寻找出与产品特征数据有关联的评价数据,并对评价数据进行分析,可以及时发现商家的宣传内容是否存在虚假的现象,若存在虚假的现象,应对相应的产品特征数据进行预警提示;
24、步骤s320:根据第a个产品特征数据对应的关键词集合kwa,以及第b个关键评价数据对应的关键词集合kwb;设置初始关联系数为0,通过大语言模型,以kwa对应的第1个关键词为参照词,若存在kwb中的任一关键词与所述参照词的语义相似度,大于相似度阈值,则关联系数加1,以此类推,得到最终的关联系数将集合kwa对应的关键词数量作为snmin,得到第a个产品特征数据对应的关键词在第b个关键评价数据中出现的比例
25、若所述比例大于比例阈值,将第b个关键评价数据作为第a个产品特征数据的关联评价数据。
26、进一步的,步骤s400包括:
27、步骤s410:所述大语言模型还用于计算任意两个关键词之间的关联程度,并且关联程度的值在[-1,1]之间,通过大语言模型,得到第a个产品特征数据中的第x个关键词与第b个关联评价数据中的第y个关键词的关联程度关联程度根据第a个产品特征数据中的第x个关键词与第b个关联评价数据中的每一关键词对应的关联程度若存在将满足的关联程度最大值记为degmax;若存在将满足的关联程度最小值记为degmin;
28、其中,得到关联程度的具体的技术可通过欧氏距离得到,越接近-1说明两者释义相反,比如安全和危险;越接近0说明两者释义不相关;越接近1说明两者释义相近,比如安全和牢固;
29、步骤s420:设定第a个产品特征数据中的第x个关键词与第b个关联评价数据对应的偏差数据为若存在degmax≤|degmin|,则偏差数据若存在degmax>|degmin|,则偏差数据进而得到第b个关联评价数据对应第a个产品特征数据的编辑距离xa为第a个产品特征数据中的关键词数量,e为自然指数;进而根据每一对应的编辑距离,将产品特征数据分为不同等级。
30、根据每一对应的编辑距离,将产品特征数据分为不同等级包括:根据每一关联评价数据对应第a个产品特征数据的编辑距离,并均进行归一化;若存在[eds'1,1]中的编辑距离数量大于阈值qu1,则将第a个产品特征数据做出严重警告;否则,若存在[eds'2,eds'1)中的编辑距离数量大于阈值qu2,则将第a个产品特征数据做出一般警告;否则,若存在[eds'3,eds'2)中的编辑距离数量大于阈值qu3,则将第a个产品特征数据做出轻微警告。
31、药械化网络风险监测系统,包括特征用户模块、关键评价数据模块、关联评价数据模块和预警提示模块;
32、特征用户模块:用于确定监测的药械化产品,采集所述药械化产品在网络销售后的评价数据,根据大语言模型,对其中的特征评价数据进行判断提取,并将发布所述特征评价数据的用户作为特征用户;
33、关键评价数据模块:用于根据大语言模型,对特征用户发布的评价数据进行分析,从特征用户中筛查出有效用户,并将有效用户发布的特征评价数据作为关键评价数据;
34、关联评价数据模块:用于采集所述药械化产品的宣传信息,根据大语言模型,得到若干产品特征数据,并得到每一产品特征数据对应的关联评价数据;
35、预警提示模块:用于根据大语言模型,对产品特征数据对应的关联评价数据进行分析,得到关联评价数据对应产品特征数据的编辑距离,并根据所述编辑距离,将产品特征数据分为不同等级,并进行不同的预警提示。
36、进一步的,特征用户模块包括大语言模型单元和特征用户单元;
37、大语言模型单元:用于预先训练大语言模型,所述大语言模型用于提取评价数据中的关键词;
38、特征用户单元:用于对评价数据的内容进行分析,对其中的特征评价数据进行判断提取,并将发布所述特征评价数据的用户作为特征用户。
39、进一步的,关联评价数据模块包括宣传信息单元和关联评价数据单元;
40、宣传信息单元:用于采集所述药械化产品的宣传信息,根据大语言模型,得到若干产品特征数据;
41、关联评价数据单元:用于得到每一产品特征数据对应的关联评价数据。
42、与现有技术相比,本发明所达到的有益效果是:本发明提供了基于大语言模型的药械化网络风险监测方法和系统,包括:确定监测的药械化产品,采集药械化产品的评价数据,并对其中的特征评价数据进行判断提取,进而得到特征评价数据对应的特征用户;筛查出有效用户,并得到关键评价数据;采集药械化产品的宣传信息,得到若干产品特征数据;将产品特征数据分为不同等级,并进行不同的预警提示。本发明通过对药械化产品的宣传信息进行解析,得到若干产品特征数据,进而对各产品特征数据进行预警提示,及时识别和预警具有风险的宣传数据,提高宣传信息的可靠程度,为商家进一步改进产品提供了重要的参考和指导。
技术研发人员:张向飞,倪孟锴,方海宾,王轶,刘静,顾琦,吴浩
技术所有人:上海市大数据中心
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
