首页  专利技术  电子电路装置的制造及其应用技术

一种基于大语言模型的电力故障数据查询方法及系统与流程

2026-06-28 10:20:01 138次浏览
一种基于大语言模型的电力故障数据查询方法及系统与流程

本发明涉及数据库领域,更具体地,涉及一种基于大语言模型的电力故障数据查询方法及系统。


背景技术:

1、在电力系统中,故障数据分析是一项至关重要的任务。它可以帮助电力公司预测和识别潜在的故障,提高电网的可靠性和稳定性。传统的故障数据分析方法通常依赖于专家经验和手工特征工程,这限制了分析的深度和广度。随着人工智能技术的发展,特别是大语言模型的兴起,为电力故障数据分析提供了新的可能性。大语言模型具有强大的特征提取和模式识别能力。它可以结构化数据中自动学习到复杂的特征和规律,从而提高故障分析的准确性和效率。

2、随着大数据和人工智能技术的迅猛发展,自然语言处理(nlp)领域的研究取得了显著进展,特别是基于transformer架构的大型语言模型(llm)的出现,使得机器在处理上下文语义关联的非结构化文本数据方面表现出色。然而,传统数据库系统主要为相互独立的结构化数据。现有技术中,大多数text2sql方法主要集中在通用领域,使用的模型和方法未针对特定行业优化,特别是未针对电力行业的数据库特点进行定制。文献中提到的一些方法,如基于seq2seq的模型(see et al., 2017)、bert模型的应用(devlin et al.,2018)和gpt模型的应用(radford et al., 2019),虽然在通用领域有一定准确率,但在特定行业领域(如电力、政务等)理解数据库表、处理多表关联关系、生成查询语句(sql)等任务上,仍面临诸多问题:

3、1、命名不规范,在实际应用中,电力行业的数据库,往往存在命名不规范的问题。表和字段名称可能包含英文、拼音、拼音首字母等多种命名方式,这使得通用的词向量编码模型在理解这些命名时面临困难,影响了大语言模型理解数据库表业务意义的能力,导致生成sql语句的准确度下降。

4、2、上下文长度限制,真实生产环境下的数据库表信息通常非常庞大,通常超出了大语言模型上下文理解的长度限制,且数据库表在创建时多为无序随机创建(表之间的相关性和相对位置无关),使得大语言模型在生成sql查询时无法全面理解数据库表的所有关联信息和业务含义。

5、3、专属领域适配不足,目前开源的大语言模型在text2sql模块训练的语料较为繁杂,如果需要适配特定业务场景,需要在此基础上进行微调,以提高模型的准确性和效率。


技术实现思路

1、本发明针对现有技术中存在的技术问题,提供一种基于大语言模型的电力故障数据查询方法及系统。

2、根据本发明的第一方面,提供了一种基于大语言模型的电力故障数据查询方法,包括:

3、收集电力行业的历史数据库表字段信息,对所述数据库表字段信息进行分词,将每一个分词转换为拼音;将处理后的每一个分词、拼音和拼音首字母汇总成词汇表,获取词汇表中每一个分词的词向量;

4、基于词汇表中的分词和对应的词向量训练词向量化模型;

5、读取供查询的所有数据库表的表字段信息,将每一个表字段信息输入训练后的词向量化模型中,获取每一个表字段信息的词向量;

6、基于每一个表字段信息的词向量,计算不同数据库表中的字段信息之间的相似度,基于相似度将不同数据库表进行关联,对供查询的所有数据库表的顺序按照关联度进行重新排序,将相关联的数据库表放置在一起;

7、将待查询数据库表名称、字段信息和问题组合输入到llm大语言模型中,生成查询结构化数据的sql语句;

8、根据所述sql语句,从供查询的数据库表中查询对应的电力故障数据。

9、根据本发明的第二方面,提供一种基于大语言模型的电力故障数据查询系统,包括:

10、第一获取模块,用于收集电力行业的历史数据库表字段信息,对所述数据库表字段信息进行分词,将每一个分词转换为拼音;将处理后的每一个分词、拼音和拼音首字母汇总成词汇表,获取词汇表中每一个分词的词向量;

11、训练模块,用于基于词汇表中的分词和对应的词向量训练词向量化模型;

12、第二获取模块,用于读取供查询的所有数据库表的表字段信息,将每一个表字段信息输入训练后的词向量化模型中,获取每一个表字段信息的词向量;

13、计算模块,用于基于每一个表字段信息的词向量,计算不同数据库表中的字段信息之间的相似度,基于相似度将不同数据库表进行关联,对供查询的所有数据库表的顺序按照关联度进行重新排序,将相关联的数据库表放置在一起;

14、生成模块,用于将待查询数据库表名称、字段信息和问题组合输入到llm大语言模型中,生成查询结构化数据的sql语句;

15、查询模块,用于根据所述sql语句,从供查询的数据库表中查询对应的电力故障数据。

16、本发明提供的一种基于大语言模型的电力故障数据查询方法及系统,通过收集不同命名规则的数据库表字段信息,对表字段信息进行分词和向量化;基于分词和词向量训练词向量化模型;基于训练后的词向量化模型对读取的数据库表字段信息进行向量化;计算不同数据库表中的字段信息的相似度,基于相似度对数据库表进行重新排序;将待查询数据库表名称、字段信息和问题组合输入到llm大语言模型中,生成sql语句;根据sql语句,从供查询的数据库表中查询对应的电力故障数据。本发明方法,解决了现有技术中存在的命名不规范、缺乏行业定制化以及训练语料繁杂等问题,提高了结构化电力故障数据分析的准确性和效率。



技术特征:

1.一种基于大语言模型的电力故障数据查询方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的电力故障数据查询方法,其特征在于,对所述数据库表字段信息进行分词,包括:

3.根据权利要求1所述的基于大语言模型的电力故障数据查询方法,其特征在于,所述基于词汇表中的分词和对应的词向量训练词向量化模型,之前包括:

4.根据权利要求3所述的基于大语言模型的电力故障数据查询方法,其特征在于,所述基于词汇表中的分词和对应的词向量训练词向量化模型,包括:

5.根据权利要求4所述的基于大语言模型的电力故障数据查询方法,其特征在于,所述目标函数为:

6.根据权利要求1所述的基于大语言模型的电力故障数据查询方法,其特征在于,所述读取供查询的所有数据库表的表字段信息,将每一个表字段信息输入训练后的词向量化模型中,获取每一个表字段信息的词向量,包括:

7.根据权利要求1所述的基于大语言模型的电力故障数据查询方法,其特征在于,所述基于每一个表字段信息的词向量,计算不同数据库表中的字段信息之间的相似度,包括:

8.根据权利要求7所述的基于大语言模型的电力故障数据查询方法,其特征在于,所述基于相似度将不同数据库表进行关联,对供查询的所有数据库表的顺序按照关联度进行重新排序,将相关联的数据库表放置在一起,包括:

9.根据权利要求1所述的基于大语言模型的电力故障数据查询方法,其特征在于,根据所述sql语句,从供查询的数据库表中查询对应的电力故障数据,包括:

10.一种基于大语言模型的电力故障数据查询系统,其特征在于,包括:


技术总结
本发明提供一种基于大语言模型的电力故障数据查询方法及系统,包括:收集电力行业的数据库表字段信息,进行分词;基于分词和词向量训练词向量化模型;读取供查询的所有数据库表的表字段信息,基于训练后的词向量化模型获取每一个表字段信息的词向量;基于每一个表字段信息的词向量,计算不同数据库表中的字段信息之间的相似度,对数据库表进行重新排序;将待查询数据库表名称、字段信息和问题组合输入到LLM大语言模型中,生成SQL语句;根据SQL语句,从供查询的数据库表中查询对应的电力故障数据。本发明方法,解决了现有技术中存在的命名不规范、缺乏行业定制化以及训练语料繁杂等问题,提高了结构化电力故障数据分析的准确性和效率。

技术研发人员:韩冬,粟俊
受保护的技术使用者:西安艾飞能源数字技术有限公司
技术研发日:
技术公布日:2024/11/28
文档序号 : 【 40162083 】

技术研发人员:韩冬,粟俊
技术所有人:西安艾飞能源数字技术有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
韩冬粟俊西安艾飞能源数字技术有限公司
一种钻孔用钻头的制作方法 问答方法、装置、计算机设备、计算机可读存储介质与流程
相关内容