一种面向公共资源交易数据的自动分类方法及系统与流程

本技术涉及数据处理,具体涉及一种面向公共资源交易数据的自动分类方法及系统。
背景技术:
1、在公共资源交易领域,招投标公告发布渠道众多,数据来源多样,这些数据通常包括公告标题、发布时间、项目金额、公告内容、项目描述等。有效地处理和分析这些数据对于政府部门和企业在决策过程中至关重要。尤其是准确分类这些数据,可以大幅提升决策的准确性和效率。
2、然而,现有技术中的分类方法存在明显的技术缺陷。在数据分析和分类阶段由于数据源不同,数据格式各异,现有的分析和分类方法难以统一对各种类型的数据进行处理,导致数据相关特征的提取不准确,从而影响最终数据分类的准确性。
3、因此,如何提升数据分类的准确性,成为亟需解决的技术问题。
技术实现思路
1、本技术提供了一种面向公共资源交易数据的自动分类方法及系统,可以提升数据分类的准确性。
2、第一方面,本技术提供了一种面向公共资源交易数据的自动分类方法,所述方法包括:从各个招投标公告发布渠道采集公共资源交易数据,所述公共资源交易数据包括第一结构化数据和第一非结构化数据;对多个所述第一结构化数据进行预处理,得到多个预处理后的结构化数据;对多个所述第一非结构化数据进行预处理,得到多个预处理后的非结构化数据;从每个所述预处理后的结构化数据中提取第一特征,并从每个所述预处理后的非结构化数据中提取第二特征;从多个所述第一特征和多个所述第二特征中提取关联特征;分别从多个所述第一特征和多个所述第二特征去除所述关联特征,分别得到多个第三特征和多个第四特征;对多个所述第三特征、多个所述第四特征以及多个所述关联特征进行分类,得到多个分类结果。
3、通过采用上述技术方案,通过从各个招投标公告发布渠道采集公共资源交易数据,公共资源交易数据包括第一结构化数据和第一非结构化数据,从而全面获取招投标信息的多样性和丰富性,确保数据的完整性和广泛覆盖,提供了高质量的基础数据。通过对多个第一结构化数据进行预处理,得到多个预处理后的结构化数据,从而提高数据质量,消除重复和冗余信息,为后续的特征提取和分类提供了可靠的基础。通过对多个第一非结构化数据进行预处理,得到多个预处理后的非结构化数据,从而去除噪音和无关信息,提高数据的质量和分析的有效性,增强数据的多样性和完整性。通过从每个预处理后的结构化数据中提取第一特征,并从每个预处理后的非结构化数据中提取第二特征,从而将原始数据转换为具有代表性的特征向量,保留了数据中的关键信息,提高了数据的可分析性和模型的输入质量。通过从多个第一特征和多个第二特征中提取关联特征,从而综合利用结构化数据和非结构化数据中的信息,识别出最具代表性的特征,增强特征集的丰富性和信息量,提高模型的预测能力和准确性。通过分别从多个第一特征和多个第二特征去除关联特征,分别得到多个第三特征和多个第四特征,从而优化特征集,保留最具信息量的特征,去除冗余和重复特征,提高数据集的质量和模型的性能,为后续的分类提供了高质量的输入。通过对多个第三特征、多个第四特征以及多个关联特征进行分类,得到多个分类结果,从而全面利用不同特征集中的信息,优化分类模型的输入,提升分类模型的预测准确性,从而确保数据分类的精准性。
4、可选的,所述预处理后的结构化数据包括预处理后的数值类型结构化数据和预处理后的非数值类型结构化数据;所述对多个所述第一结构化数据进行预处理,得到多个预处理后的结构化数据,具体包括:对多个所述第一结构化数据进行去重处理,得到多个第二结构化数据;对多个所述第二结构化数据进行缺失值处理,得到多个第三结构化数据;所述第三结构化数据包括数值类型结构化数据以及非数值类型结构化数据;对多个所述数值类型结构化数据进行标准化处理,得到多个所述预处理后的数值类型结构化数据;对多个所述非数值类型结构化数据进行编码处理,得到多个所述预处理后的非数值类型结构化数据。
5、通过采用上述技术方案,通过对多个第一结构化数据进行去重处理,得到多个第二结构化数据,从而消除了数据集中可能存在的重复记录,确保了数据的唯一性和准确性,提高了数据的质量,减少了冗余信息对后续分析的干扰。通过对多个第二结构化数据进行缺失值处理,得到多个第三结构化数据,从而填补或处理了数据集中不完整的部分,提高了数据的完整性,确保了数据的可用性,避免了缺失值对数据分析结果的影响。通过对多个数值类型结构化数据进行标准化处理,得到多个预处理后的数值类型结构化数据,从而将不同量纲的数值数据转换到同一尺度上,消除了量纲差异对数据分析的影响,增强了数据的可比性和一致性,为后续的数据分析和模型训练提供了高质量的数值数据。通过对多个非数值类型结构化数据进行编码处理,得到多个预处理后的非数值类型结构化数据,从而将类别型数据转换为数值型数据,使其能够被机器学习算法有效处理,提高了数据的表达能力,增强了数据的可分析性,为后续的特征提取和分类奠定了基础。
6、可选的,所述第一非结构化数据包括文本类型数据、图像类型数据、文档类型数据、音频类型数据以及视频类型数据;所述预处理后的非结构化数据包括预处理后的文本数据和预处理后的图像数据;所述对多个所述第一非结构化数据进行预处理,得到多个预处理后的非结构化数据,具体包括:对多个所述文本类型数据进行文本预处理,得到多个所述预处理后的文本数据;对多个所述图像类型数据进行图像预处理,得到多个所述预处理后的图像本数据;基于文档解析工具将多个所述文档类型数据转换为多个文本类型数据,并对多个所述文本类型数据进行文本预处理,得到多个所述预处理后的文本数据;基于语音识别工具将多个所述音频类型数据转换为多个文本类型数据,并对多个所述文本类型数据进行文本预处理,得到多个所述预处理后的文本数据;从多个所述视频类型数据中提取多个关键帧,并对多个所述关键帧进行图像预处理,得到多个所述预处理后的图像本数据。
7、可选的,所述从多个所述第一特征和多个所述第二特征中提取关联特征,具体包括:对多个所述第一特征进行向量化处理,得到多个第一特征向量,并对多个所述第二特征进行向量化处理,得到多个第二特征向量;将多个所述第一特征向量和多个所述第二特征向量进行拼接,得到第一综合特征向量;对所述第一综合特征向量进行标准化和归一化处理,得到第二综合特征向量;对所述第二综合特征向量进行相关性分析,得到特征相关性矩阵;对所述第二综合特征向量进行互信息分析,得到特征互信息矩阵;基于所述特征相关性矩阵和所述特征互信息矩阵对所述第二综合特征向量进行筛选,得到多个关联特征。
8、通过采用上述技术方案,通过对多个第一特征进行向量化处理,得到多个第一特征向量,并对多个第二特征进行向量化处理,得到多个第二特征向量,从而将原始数据转换为数值向量形式,保留了数据中的关键信息,提高了数据的可分析性和模型的输入质量,为后续的特征拼接和处理奠定了基础。通过将多个第一特征向量和多个第二特征向量进行拼接,得到第一综合特征向量,从而整合了不同来源的特征信息,形成一个统一的特征表示,增强了特征表示的丰富性和完整性,提高了特征向量的表达能力。通过对第一综合特征向量进行标准化和归一化处理,得到第二综合特征向量,从而消除了不同特征之间的量纲差异,使所有特征在相同的尺度上进行比较和分析,增强了数据的可比性和一致性,提高了特征向量的质量和模型的稳定性,为后续的相关性分析和互信息分析奠定了坚实的基础。通过对第二综合特征向量进行相关性分析,得到特征相关性矩阵,从而评估特征之间的线性关系,识别出特征对之间的显著相关性,提供了重要的线性关系信息。通过对第二综合特征向量进行互信息分析,得到特征互信息矩阵,从而评估特征之间的非线性关系,捕捉特征对之间的依赖性,提供了重要的非线性关系信息,与相关性分析结果互为补充,为全面评估特征间关系提供了重要依据。通过基于特征相关性矩阵和特征互信息矩阵对第二综合特征向量进行筛选,得到多个关联特征,从而综合利用线性和非线性关系的信息,筛选出最具代表性的特征,去除冗余特征,增强特征集的有效性和信息量,提高模型的预测能力和准确性,为实现精准的公共资源交易数据自动分类奠定了坚实的基础。
9、可选的,所述第一特征包括数值类型特征和非数值类型特征;所述第二特征包括文档类型特征以及图片类型特征;所述第一特征向量包括数值特征向量和非数值特征向量;所述第二特征向量包括文本特征向量和图像特征向量;所述对多个所述第一特征进行向量化处理,得到多个第一特征向量,并对多个所述第二特征进行向量化处理,得到多个第二特征向量,具体包括:对多个所述数值类型特征进行归一化处理,得到多个数值特征向量;对多个所述非数值类型特征进行独热编码,得到多个非数值特征向量;对多个所述文档类型特征进行向量化处理,得到多个文本特征向量;对多个所述图片类型特征进行向量化处理,得到多个图像特征向量。
10、可选的,所述基于所述特征相关性矩阵和所述特征互信息矩阵对所述第二综合特征向量进行筛选,得到多个关联特征,具体包括:设定相关性阈值和互信息阈值;基于所述相关性阈值对所述特征相关性矩阵进行筛选,保留相关性大于所述相关性阈值的特征对,得到第一高相关性特征对集合;基于所述互信息阈值对所述特征互信息矩阵进行筛选,保留互信息大于所述互信息阈值的特征对,得到第二高互信息特征对集合;将所述第一高相关性特征对集合和所述第二高互信息特征对集合进行交集运算,得到综合高关联特征对集合;从所述综合高关联特征对集合中提取特征,得到多个所述关联特征。
11、通过采用上述技术方案,通过设定相关性阈值和互信息阈值,从而为特征筛选过程提供了明确的标准,确保只保留具有显著线性和非线性关系的特征对,增强了筛选过程的科学性和合理性。通过基于相关性阈值对特征相关性矩阵进行筛选,保留相关性大于相关性阈值的特征对,得到第一高相关性特征对集合,从而识别并保留了具有显著线性关系的特征对,去除了线性相关性较弱的特征对,提升了特征集的质量和线性信息的代表性。通过基于互信息阈值对特征互信息矩阵进行筛选,保留互信息大于互信息阈值的特征对,得到第二高互信息特征对集合,从而识别并保留了具有显著非线性依赖关系的特征对,去除了非线性依赖性较弱的特征对,增强了特征集的有效性和非线性信息的代表性。通过将第一高相关性特征对集合和第二高互信息特征对集合进行交集运算,得到综合高关联特征对集合,从而综合考虑了特征的线性和非线性关系,筛选出同时在这两方面都表现突出的特征对,进一步提升了特征集的代表性和信息量。通过从综合高关联特征对集合中提取特征,得到多个关联特征,从而将最具信息量和代表性的特征提取出来,去除了冗余和无关的特征,提高了特征集的质量和模型的性能,为后续的分类和分析提供了高质量的输入。
12、可选的,所述分类结果包括第一分类集合、第二分类集合以及第三分类集合;所述对多个所述第三特征、多个所述第四特征以及多个所述关联特征进行分类,得到多个分类结果,具体包括:将多个所述第三特征输入至预设的分类模型,输出所述第一分类集合;将多个所述第四特征输入至预设的分类模型,输出所述第二分类集合;将多个所述关联特征输入至预设的分类模型,输出所述第三分类集合。
13、通过采用上述技术方案,通过将多个第三特征输入至预设的分类模型,输出第一分类集合,从而利用去除关联特征后的结构化数据特征进行分类,有效提升了模型的性能和准确性,确保了分类结果的可靠性。通过将多个第四特征输入至预设的分类模型,输出第二分类集合,从而利用去除关联特征后的非结构化数据特征进行分类,充分利用了不同数据源的信息,提高了分类的多样性和精准性,增强了分类模型的适应性和稳定性。通过将多个关联特征输入至预设的分类模型,输出第三分类集合,从而利用综合高关联特征进行分类,整合了最具信息量的特征,显著提高了分类模型的预测能力和效果,确保了分类结果的高效性和精准性。
14、在本技术的第二方面提供了一种面向公共资源交易数据的自动分类系统,所述系统包括:数据采集模块和处理模块;所述数据采集模块,用于从各个招投标公告发布渠道采集公共资源交易数据,所述公共资源交易数据包括第一结构化数据和第一非结构化数据;所述处理模块,用于对多个所述第一结构化数据进行预处理,得到多个预处理后的结构化数据,并对多个所述第一非结构化数据进行预处理,得到多个预处理后的非结构化数据;所述处理模块,还用于从每个所述预处理后的结构化数据中提取第一特征,并从每个所述预处理后的非结构化数据中提取第二特征;所述处理模块,还用于从多个所述第一特征和多个所述第二特征中提取关联特征;所述处理模块,还用于分别从多个所述第一特征和多个所述第二特征去除所述关联特征,分别得到多个第三特征和多个第四特征;所述处理模块,还用于对多个所述第三特征、多个所述第四特征以及多个所述关联特征进行分类,得到多个分类结果。
15、在本技术的第三方面提供了一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其它设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如本技术第一方面任意一项所述的方法。
16、在本技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有能够被处理器加载并执行如本技术第一方面任意一项所述的方法的计算机程序。
17、综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
18、通过从各个招投标公告发布渠道采集公共资源交易数据,公共资源交易数据包括第一结构化数据和第一非结构化数据,从而全面获取招投标信息的多样性和丰富性,确保数据的完整性和广泛覆盖,提供了高质量的基础数据。通过对多个第一结构化数据进行预处理,得到多个预处理后的结构化数据,从而提高数据质量,消除重复和冗余信息,为后续的特征提取和分类提供了可靠的基础。通过对多个第一非结构化数据进行预处理,得到多个预处理后的非结构化数据,从而去除噪音和无关信息,提高数据的质量和分析的有效性,增强数据的多样性和完整性。通过从每个预处理后的结构化数据中提取第一特征,并从每个预处理后的非结构化数据中提取第二特征,从而将原始数据转换为具有代表性的特征向量,保留了数据中的关键信息,提高了数据的可分析性和模型的输入质量。通过从多个第一特征和多个第二特征中提取关联特征,从而综合利用结构化数据和非结构化数据中的信息,识别出最具代表性的特征,增强特征集的丰富性和信息量,提高模型的预测能力和准确性。通过分别从多个第一特征和多个第二特征去除关联特征,分别得到多个第三特征和多个第四特征,从而优化特征集,保留最具信息量的特征,去除冗余和重复特征,提高数据集的质量和模型的性能,为后续的分类提供了高质量的输入。通过对多个第三特征、多个第四特征以及多个关联特征进行分类,得到多个分类结果,从而全面利用不同特征集中的信息,优化分类模型的输入,提升分类模型的预测准确性,从而确保数据分类的精准性。
技术研发人员:韩永琦,樊旭琦,童禹臻
技术所有人:山西金蝉电子商务有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
