首页  专利技术  电子电路装置的制造及其应用技术

一种适用于所有行业的基于大模型生成nl2sql训练集的方法及系统与流程

2025-08-10 14:40:07 233次浏览

技术特征:

1.一种适用于所有行业的基于大模型生成nl2sql训练集的方法,其特征在于:所述包括以下步骤:

2.根据权利要求1所述的一种适用于所有行业的基于大模型生成nl2sql训练集的方法,其特征在于:基于建表语句构建初始问题集的具体操作包括:

3.根据权利要求1所述的一种适用于所有行业的基于大模型生成nl2sql训练集的方法,其特征在于:生成与校验种子sql的具体操作包括:

4.根据权利要求1所述的一种适用于所有行业的基于大模型生成nl2sql训练集的方法,其特征在于:人工校验扩充后的问题的具体操作包括:

5.根据权利要求1所述的一种适用于所有行业的基于大模型生成nl2sql训练集的方法,其特征在于:数据库执行与结果比对的具体操作包括:

6.一种根据权利要求1-5任意一项所述的适用于所有行业的基于大模型生成nl2sql训练集的方法的适用于所有行业的基于大模型生成nl2sql训练集系统,其特征在于:所述系统包括:

7.根据权利要求6所述的一种适用于所有行业的基于大模型生成nl2sql训练集系统,其特征在于:初始问题集构建模块,在构建初始问题集过程中,通过编写通用脚本的方法,进行问题构建,在脚本中构建通用prompt,调用大模型接口,针对不同行业场景,仅需变更通用prompt中的建表语句以及提供的一些问题示例,或者提供的一些表数据,即可生成基于表结构的具体场景下的问题集;

8.根据权利要求6所述的一种适用于所有行业的基于大模型生成nl2sql训练集系统,其特征在于:校验种子生成模块,撰写自动化脚本,通过请求大模型接口的方式,自动化生成种子问题对应的sql语句,并输出sql语句文件,通过自动化脚本,极大缩短人为编写sql的时间,极大的提高构建训练集的效率,并对生成的sql再次进行人工校验;

9.根据权利要求6所述的一种适用于所有行业的基于大模型生成nl2sql训练集系统,其特征在于:校验模块,对每个问题进行仔细阅读,理解其查询意图和表述方式,尤其是指标或场景的表述方式,人工将问题与对应的种子问题进行对比,检查在语义上是否保持一致,对于语义不一致的问题,要求与业务人员或客户进行深入的分析和讨论,并根据实际情况进行了修正处理;通过修改措辞、添加上下文信息或明确查询条件等方式来消除歧义,使其更加清晰明确,记录下问题和修改过程,以便后续对训练集进行进一步优化和改进;

10.根据权利要求6所述的一种适用于所有行业的基于大模型生成nl2sql训练集系统,其特征在于:执行和对比模块,连接到一个实际的数据库并执行这些sql语句,当前步骤需确保所有执行的sql都可查询到结果数据,否则导致匹配结果不准确;操作人员执行300个种子sql语句并记录查询结果,写入文件中,操作人员分别执行与每个种子问题对应的10个扩充问题的sql语句,并将查询结果与种子sql的查询结果进行比对,如果扩充后问题的sql查询结果与对应种子sql一致,则说明该sql语句是准确的;如果不一致,则说明该sql语句存在问题,需要进行修正;


技术总结
本发明涉及自然语言处理技术领域,具体为一种适用于所有行业的基于大模型生成nl2sql训练集的方法及系统,包括以下步骤:基于建表语句构建初始问题集;人工筛选常用场景问题;生成与校验种子SQL;语义相似问题扩充;人工校验扩充后的问题;生成扩充问题的SQL;数据库执行与结果比对;构建微调训练集;有益效果为:基于通用的建表语句和大模型生成问题,适用于所有需要数据查询的行业;通过人工筛选、校验和修正,确保生成的训练集具有高质量和准确性;自动化和智能化的生成过程降低了数据标注成本,提高了训练集生成效;根据实际业务场景调整问题和SQL的数量和比例,具有良好的可扩展性。

技术研发人员:赵兴业,李廷,韩同
受保护的技术使用者:浪潮云信息技术股份公司
技术研发日:
技术公布日:2024/11/18
文档序号 : 【 40049352 】

技术研发人员:赵兴业,李廷,韩同
技术所有人:浪潮云信息技术股份公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
赵兴业李廷韩同浪潮云信息技术股份公司
一种高效节能型混凝土生产设备的制作方法 基于数据排序的大模型微调训练方法、系统、设备及介质与流程
相关内容