一种面向RAG的多支路混合平衡检索优化方法及系统与流程
技术特征:
1.一种面向rag的多支路混合平衡检索优化方法,其特征在于,包括:
2.如权利要求1所述的一种面向rag的多支路混合平衡检索优化方法,其特征在于,预先建立包括若干知识文本的知识库,包括:
3.如权利要求1所述的一种面向rag的多支路混合平衡检索优化方法,其特征在于,所述第一候选文本集的生成,包括:
4.如权利要求1所述的一种面向rag的多支路混合平衡检索优化方法,其特征在于,所述二次过滤为:采用自定义停用词对提取的关键词进行过滤。
5.如权利要求1所述的一种面向rag的多支路混合平衡检索优化方法,其特征在于,在生成第二候选文本集之后且进行候选文本合并之前,针对第二候选文本集中每一文本,利用bm25算法计算所有关键词在每一文本中的权重得分,根据权重得分对所有文本重新进行降序排序,筛选并更新第二候选文本集。
6.如权利要求1所述的一种面向rag的多支路混合平衡检索优化方法,其特征在于,所述二次检索,包括:
7.一种面向rag的多支路混合平衡检索优化系统,其特征在于,包括:
8.如权利要求7所述的一种面向rag的多支路混合平衡检索优化系统,其特征在于,在生成第二候选文本集之后且进行候选文本合并之前,针对第二候选文本集中每一文本,利用bm25算法计算所有关键词在每一文本中的权重得分,根据权重得分对所有文本重新进行降序排序,筛选并更新第二候选文本集。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-6中任一项所述的一种面向rag的多支路混合平衡检索优化方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成如权利要求1-6中任一项所述的一种面向rag的多支路混合平衡检索优化方法的步骤。
技术总结
本发明公开一种面向RAG的多支路混合平衡检索优化方法及系统,涉及RAG检索技术领域,包括:提取用户问题的语义向量,将问题语义向量与知识库中每一文本的语义向量进行相似性匹配,生成第一候选文本集;提取用户问题中的关键词,经二次过滤后得到关键词列表,通过关键词列表与知识库中每一文本进行关键词匹配,生成第二候选文本集;合并第一、第二候选文本集并去重,再输入至Reranker模型中,生成第三候选文本集;判断第三候选文本集是否为空,若否则将第三候选文本集作为检索结果输出,反之则进行二次检索,重新确定检索结果并输出;将用户问题和检索结果发送至大语言模型。本发明能够提高RAG检索的准确性,提高用户体验感。
技术研发人员:李学民,王伟,李明,刘辉,谢厚娟
受保护的技术使用者:山东省大数据中心
技术研发日:
技术公布日:2024/11/28
技术研发人员:李学民,王伟,李明,刘辉,谢厚娟
技术所有人:山东省大数据中心
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
