一种基于大语言模型的电力故障数据查询方法及系统与流程

2026-06-28 10:20:01 138次浏览

本发明涉及数据库领域，更具体地，涉及一种基于大语言模型的电力故障数据查询方法及系统。

背景技术：

1、在电力系统中，故障数据分析是一项至关重要的任务。它可以帮助电力公司预测和识别潜在的故障，提高电网的可靠性和稳定性。传统的故障数据分析方法通常依赖于专家经验和手工特征工程，这限制了分析的深度和广度。随着人工智能技术的发展，特别是大语言模型的兴起，为电力故障数据分析提供了新的可能性。大语言模型具有强大的特征提取和模式识别能力。它可以结构化数据中自动学习到复杂的特征和规律，从而提高故障分析的准确性和效率。

2、随着大数据和人工智能技术的迅猛发展，自然语言处理（nlp）领域的研究取得了显著进展，特别是基于transformer架构的大型语言模型（llm）的出现，使得机器在处理上下文语义关联的非结构化文本数据方面表现出色。然而，传统数据库系统主要为相互独立的结构化数据。现有技术中，大多数text2sql方法主要集中在通用领域，使用的模型和方法未针对特定行业优化，特别是未针对电力行业的数据库特点进行定制。文献中提到的一些方法，如基于seq2seq的模型（see et al., 2017）、bert模型的应用（devlin et al.,2018）和gpt模型的应用（radford et al., 2019），虽然在通用领域有一定准确率，但在特定行业领域（如电力、政务等）理解数据库表、处理多表关联关系、生成查询语句(sql)等任务上，仍面临诸多问题：

3、1、命名不规范，在实际应用中，电力行业的数据库，往往存在命名不规范的问题。表和字段名称可能包含英文、拼音、拼音首字母等多种命名方式，这使得通用的词向量编码模型在理解这些命名时面临困难，影响了大语言模型理解数据库表业务意义的能力，导致生成sql语句的准确度下降。

4、2、上下文长度限制，真实生产环境下的数据库表信息通常非常庞大，通常超出了大语言模型上下文理解的长度限制，且数据库表在创建时多为无序随机创建（表之间的相关性和相对位置无关），使得大语言模型在生成sql查询时无法全面理解数据库表的所有关联信息和业务含义。

5、3、专属领域适配不足，目前开源的大语言模型在text2sql模块训练的语料较为繁杂，如果需要适配特定业务场景，需要在此基础上进行微调，以提高模型的准确性和效率。

技术实现思路

1、本发明针对现有技术中存在的技术问题，提供一种基于大语言模型的电力故障数据查询方法及系统。

2、根据本发明的第一方面，提供了一种基于大语言模型的电力故障数据查询方法，包括：

3、收集电力行业的历史数据库表字段信息，对所述数据库表字段信息进行分词，将每一个分词转换为拼音；将处理后的每一个分词、拼音和拼音首字母汇总成词汇表，获取词汇表中每一个分词的词向量；

4、基于词汇表中的分词和对应的词向量训练词向量化模型；

5、读取供查询的所有数据库表的表字段信息，将每一个表字段信息输入训练后的词向量化模型中，获取每一个表字段信息的词向量；

6、基于每一个表字段信息的词向量，计算不同数据库表中的字段信息之间的相似度，基于相似度将不同数据库表进行关联，对供查询的所有数据库表的顺序按照关联度进行重新排序，将相关联的数据库表放置在一起；

7、将待查询数据库表名称、字段信息和问题组合输入到llm大语言模型中，生成查询结构化数据的sql语句；

8、根据所述sql语句，从供查询的数据库表中查询对应的电力故障数据。

9、根据本发明的第二方面，提供一种基于大语言模型的电力故障数据查询系统，包括：

10、第一获取模块，用于收集电力行业的历史数据库表字段信息，对所述数据库表字段信息进行分词，将每一个分词转换为拼音；将处理后的每一个分词、拼音和拼音首字母汇总成词汇表，获取词汇表中每一个分词的词向量；

11、训练模块，用于基于词汇表中的分词和对应的词向量训练词向量化模型；

12、第二获取模块，用于读取供查询的所有数据库表的表字段信息，将每一个表字段信息输入训练后的词向量化模型中，获取每一个表字段信息的词向量；

13、计算模块，用于基于每一个表字段信息的词向量，计算不同数据库表中的字段信息之间的相似度，基于相似度将不同数据库表进行关联，对供查询的所有数据库表的顺序按照关联度进行重新排序，将相关联的数据库表放置在一起；

14、生成模块，用于将待查询数据库表名称、字段信息和问题组合输入到llm大语言模型中，生成查询结构化数据的sql语句；

15、查询模块，用于根据所述sql语句，从供查询的数据库表中查询对应的电力故障数据。

16、本发明提供的一种基于大语言模型的电力故障数据查询方法及系统，通过收集不同命名规则的数据库表字段信息，对表字段信息进行分词和向量化；基于分词和词向量训练词向量化模型；基于训练后的词向量化模型对读取的数据库表字段信息进行向量化；计算不同数据库表中的字段信息的相似度，基于相似度对数据库表进行重新排序；将待查询数据库表名称、字段信息和问题组合输入到llm大语言模型中，生成sql语句；根据sql语句，从供查询的数据库表中查询对应的电力故障数据。本发明方法，解决了现有技术中存在的命名不规范、缺乏行业定制化以及训练语料繁杂等问题，提高了结构化电力故障数据分析的准确性和效率。

技术特征：

1.一种基于大语言模型的电力故障数据查询方法，其特征在于，包括：

2.根据权利要求1所述的基于大语言模型的电力故障数据查询方法，其特征在于，对所述数据库表字段信息进行分词，包括：

3.根据权利要求1所述的基于大语言模型的电力故障数据查询方法，其特征在于，所述基于词汇表中的分词和对应的词向量训练词向量化模型，之前包括：

4.根据权利要求3所述的基于大语言模型的电力故障数据查询方法，其特征在于，所述基于词汇表中的分词和对应的词向量训练词向量化模型，包括：

5.根据权利要求4所述的基于大语言模型的电力故障数据查询方法，其特征在于，所述目标函数为：

6.根据权利要求1所述的基于大语言模型的电力故障数据查询方法，其特征在于，所述读取供查询的所有数据库表的表字段信息，将每一个表字段信息输入训练后的词向量化模型中，获取每一个表字段信息的词向量，包括：

7.根据权利要求1所述的基于大语言模型的电力故障数据查询方法，其特征在于，所述基于每一个表字段信息的词向量，计算不同数据库表中的字段信息之间的相似度，包括：

8.根据权利要求7所述的基于大语言模型的电力故障数据查询方法，其特征在于，所述基于相似度将不同数据库表进行关联，对供查询的所有数据库表的顺序按照关联度进行重新排序，将相关联的数据库表放置在一起，包括：

9.根据权利要求1所述的基于大语言模型的电力故障数据查询方法，其特征在于，根据所述sql语句，从供查询的数据库表中查询对应的电力故障数据，包括：

10.一种基于大语言模型的电力故障数据查询系统，其特征在于，包括：

技术总结
本发明提供一种基于大语言模型的电力故障数据查询方法及系统，包括：收集电力行业的数据库表字段信息，进行分词；基于分词和词向量训练词向量化模型；读取供查询的所有数据库表的表字段信息，基于训练后的词向量化模型获取每一个表字段信息的词向量；基于每一个表字段信息的词向量，计算不同数据库表中的字段信息之间的相似度，对数据库表进行重新排序；将待查询数据库表名称、字段信息和问题组合输入到LLM大语言模型中，生成SQL语句；根据SQL语句，从供查询的数据库表中查询对应的电力故障数据。本发明方法，解决了现有技术中存在的命名不规范、缺乏行业定制化以及训练语料繁杂等问题，提高了结构化电力故障数据分析的准确性和效率。

技术研发人员：韩冬,粟俊
受保护的技术使用者：西安艾飞能源数字技术有限公司
技术研发日：
技术公布日：2024/11/28

文档序号 : 【 40162083 】

技术研发人员：韩冬,粟俊
技术所有人：西安艾飞能源数字技术有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

韩冬丨粟俊丨西安艾飞能源数字技术有限公司