基于自然语言描述表格的检索增强生成方法与流程

本发明涉及计算机表格转化,特别涉及基于自然语言描述表格的检索增强生成方法。
背景技术:
1、随着人工智能技术的飞速发展,以chatgpt为代表的大模型(large languagemodel,llm)在各类垂直业务场景中的应用日益广泛,但其技术实现路径产生了两项本质性挑战,时效性和专用性,即:①时效性,大模型的知识库构建于特定时间窗口的训练数据之上,导致其对后续新兴信息及动态变化的捕捉能力受限;②专用性,大模型的训练数据来源于互联网、书籍等公开渠道,不具备企业私域业务数据。
2、因此,为了解决数据时效和领域知识的限制,一种检索增强生成技术(retrievalaugmented generation,rag)应运而生。
3、而当大模型应用于垂直业务场景时,需要注入领域知识以增强表达,常用的方法有两种:①领域数据精调,sft;②检索增强生成,rag。其中,领域数据精调,需根据模型参数匹配相应量级的高质量数据,算力资源需求较大,且同样具有知识时限性及生成结果不可控等问题;检索增强生成,通过外挂数据源的形式,算力资源需求较小,可实时更新数据源,答案生成可控,但存在丢失表格结构信息内容的缺点。
4、如rag技术路线是通过从外部指定数据源检索信息来辅助大语言模型(largelanguage model,llm)生成答案,如:企业知识库、业务系统数据库等,有效杜绝大模型“幻觉”、“肤浅”等问题,使其在实际应用场景落地中变得更为可行且实用。
5、llm搭载rag技术路线具体如下:加载指定数据源文件->读取指定数据源文件->文本分割->文本向量化->用户问题向量化->在文本向量中匹配出与问题向量最相似的top k个->匹配出的top k个数据源文本和用户问题一起添加到提示词中->提交给llm生成回答。
6、但是,rag技术不具备表格识别能力,在读取指定数据源文件至文本分割的过程中,采用rag技术,读取指定数据源文件后,表格就变成了没有格式的文本,类似于把表格复制黏贴到txt,没有了表格的格式,失去了行、列及数据内容的对应关系。
7、而在企业的日常生产经营活动中,表格数据无处不在,记录了企业的基本信息、业务信息等内容,通过整理和分析能够为企业运营和决策提供支撑依据。
8、因此,如何对表格进行转化,将多层次复杂的列名或行名,逐层降维拆解,再以自然语言描述形式组合重建成单层的列名或行名成为本领域技术人员亟需解决的技术问题。
技术实现思路
1、有鉴于现有技术的上述缺陷,本发明提供基于自然语言描述表格的检索增强生成方法,实现的目的是对表格进行转化,将多层次复杂的列名或行名,逐层降维拆解,再以自然语言描述形式组合重建成单层的列名或行名。
2、为实现上述目的,本发明公开了基于自然语言描述表格的检索增强生成方法;用于将包括两层以上层级列名和/或两层以上层级行名的表格转化为仅有单层级列名和/或单层级行名的表格;
3、所述表格均包括数据区;
4、所述数据区内的所有数据均存储在呈矩形阵列布置的多个单元格内;
5、所述数据区的上方设有所述列名,
6、和/或所述述数据区的一侧设有所述行名;
7、其中,所有所述列名中,最靠近所述数据区的一行所述列名的数量与所述数据区的列数相同,且与所述数据区的每一列一一对应;
8、所有所述行名中,最靠近所述数据区的一列所述行名的数量与所述数据区的行数相同,且与所述数据区的每一行一一对应;
9、包括如下步骤;
10、步骤1、导入需要转换的包括两层以上层级所述列名和/或两层以上层级所述行名的所述表格作为原始表格;
11、步骤2、建立一个所述数据区与所述原始表格的所述数据区完全相同,但仅有单层级所述列名和/或单层级所述行名,且存储每一所述列名或每一所述行名所在单元格均为空白的结果表格;
12、步骤3、通过文档解析工具提取所述原始表格中的内容,对所述结果表格中空白的每一所述列名或者每一所述行名的所述单元格进行填充,具体步骤如下:
13、步骤3.1、确定待填充的所述单元格是所述列名还是所述行名;
14、若为所述行名,则根据相应行的数据在所述原始表格中定位最靠近所述数据区的一个所述行名的单元格作为目标单元格;
15、若为所述列名,则根据相应列的数据在所述原始表格中定位最靠近所述数据区的一个所述列名的单元格作为目标单元格;
16、步骤3.2、将所述目标单元格中的所述行名或者所述列名填充进待填充的所述单元格;
17、步骤3.3、检查所述目标单元格相对于所述数据区而言的另一侧是否存在存有更高一级的所述行名或者所述列名的所述单元格;
18、若有,则将存有更高一级的所述行名或者所述列名的所述单元格作为新的所述目标单元格;
19、若无,则表示待填充的所述单元格已经完成填充,跳过后续步骤后进行下一个待填充的所述单元格的填充;
20、步骤3.4、在所述目标单元格中的所述行名或者所述列名后增加一个逻辑连接字符后填充进相应的待填充的所述单元格内,置于所述单元格已有内容之前;
21、步骤3.5、检查所述目标单元格相对于所述数据区而言的另一侧是否存在存有更高一级的所述行名或者所述列名的所述单元格;
22、若有,则将存有更高一级的所述行名或者所述列名的所述单元格作为新的所述目标单元格,并重复执行步骤3.4和步骤3.5,直至所述目标单元格相对于所述数据区而言的另一侧不存在存有更高一级的所述行名或者所述列名的所述单元格,则表示待填充的所述单元格已经完成填充,之后进行下一个待填充的所述单元格的填充。
23、优选的,所述文档解析工具是python-docx,自动检测文档中的表格区域,区分表格与非表格内容。
24、优选的,所述逻辑连接字符为“的”。
25、优选的,完成对应所有所述列名或者所述行名的所述单元格填充的所述结果表格用于生成式人工智能对于使用者问题的解答。
26、更优选的,所述生成式人工智能在采用所述结果表格或者所述结果表格中的任何内容解答所述使用者问题后,均提供展示相应的所述原始表格的链接。
27、更优选的,所述原始表格的链接的生成方式具体如下:
28、在通过所述文档解析工具提取所述原始表格中原始文本内容时得到以“表”字开头,且总字符数小于30个的字符串,则判定提取到的内容为表格标题;
29、将提取到的所述表格标题作为链接名称,同时生成相应的html地址用于指向展示所述表格标题的网页。
30、本发明的有益效果:
31、本发明通过逻辑规则框架,指导解析表格结构,将表格转换成文字形式,以自然语言形式进行表述,针对多层次复杂表格,先逐层降维拆解,再以自然语言描述形式组合重建进行表述,即以自然语言表述形式对表格识别技术进行优化,解决rag技术在结构化提取表格内容方面的瓶颈,不仅极大提升了数据解析质量,更为后续高价值应用场景奠定了坚实技术支撑。
32、本发明通过以表格标题作为链接名称,以html形式提供表格内容展示,增强检索时的语义表示及提供表格内容溯源和扩展浏览功能。
33、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
技术研发人员:孟毓,牟艳莉,朱磊
技术所有人:上海电力设计院有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
