通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置

本公开涉及人工智能领域,具体涉及一种通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置。
背景技术:
1、大语言模型(large language model, llm)极大推进了自然语言处理领域的边界,使其能够分析复杂问题、调用各类工具以完成指令,从而形成大语言模型代理(largelanguage model agent,llm agent)的新范式。
2、现有的涉及到真实工具api交互的大语言模型代理评测方法,通常有先进大语言模型代理评估和人工评估两种。
3、在实现本公开发明构思的过程中,发明人发现相关技术的应用至少存在以下问题:评估结果不准确且效率低。
技术实现思路
1、鉴于上述问题,本公开提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置。
2、根据本公开的第一个方面,提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法,包括:将目标指令输入至大语言模型中,得到模型执行结果工具调取结果,其中,工具调取结果表征在大语言模型运行过程中调用工具的能力;确定模型参考结果和工具参考结果,其中,模型参考结果和工具参考结果均为按照与目标指令相匹配的方式确定的;基于模型执行结果和模型参考结果,确定任务完成评估结果;基于工具调取结果和工具参考结果,确定工具调用评估结果。
3、根据本公开的实施例,确定模型参考结果,包括:确定目标指令的指令类型;按照与指令类型相匹配的方式确定模型参考结果。
4、根据本公开的实施例,指令类型包括固定式指令类型,固定式指令类型表征模型参考结果唯一的类型。按照与指令类型相匹配的方式确定模型参考结果,包括:确定与目标指令存在映射关系的固定结果,作为模型参考结果。对应地,基于模型执行结果和模型参考结果,确定任务完成评估结果,包括:确定模型执行结果和模型参考结果之间的结果匹配度;基于结果匹配度,确定任务完成评估结果。
5、根据本公开的实施例,指令类型包括开放式指令类型,开放式指令类型表征模型参考结果不唯一的类型。按照与指令类型相匹配的方式确定模型参考结果,包括:确定与目标指令存在映射关系的结果之一,作为模型参考结果。对应地,基于模型执行结果和模型参考结果,确定任务完成评估结果,包括:将模型执行结果、模型参考结果和目标指令输入至预定评估模型中,得到任务完成评估结果。
6、根据本公开的实施例,指令类型包括实时式指令类型,实时式指令类型表征模型输出结果随时间变化的类型。按照与指令类型相匹配的方式确定模型参考结果,包括:将与目标指令相匹配的数据库数据与预定模版结合,得到模型参考结果。对应地,基于模型执行结果和模型参考结果,确定任务完成评估结果,包括:确定模型执行结果和模型参考结果之间的结果匹配度;基于结果匹配度,确定任务完成评估结果。
7、根据本公开的实施例,指令类型包括操作式指令类型,操作式指令类型表征用于调用数据库数据的类型。按照与指令类型相匹配的方式确定模型参考结果,包括:确定与目标指令相匹配的更新数据,作为模型参考结果。对应地,基于模型执行结果和模型参考结果,确定任务完成评估结果,包括:确定模型执行结果和模型参考结果之间的结果匹配度;基于结果匹配度,确定任务完成评估结果。
8、根据本公开的实施例,确定工具参考结果,包括:按照预定执行方式,确定与目标指令相匹配的工具参考结果。对应地,得到工具调取结果,包括:采集与目标指令相匹配的目标工具的调用数据;基于调用数据,得到工具调取结果。
9、根据本公开的实施例,基于工具调取结果和工具参考结果,确定工具调用评估结果,包括:确定工具调取结果和工具参考结果的工具匹配度;基于工具匹配度,确定工具调用评估结果。
10、根据本公开的实施例,上述通过细粒度分类建模提升大语言模型代理评测准确度的方法还包括:响应于目标指令的指令类型包括操作式指令类型,基于目标指令,确定回滚指令;响应于已获取模型执行结果,执行与回滚指令相匹配的操作。
11、本公开的第二方面提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的装置,包括:模型模块,用于将目标指令输入至大语言模型中,得到模型执行结果以及工具调取结果,其中,工具调取结果表征在大语言模型运行过程中调用工具的能力;参考模块,用于确定模型参考结果和工具参考结果,其中,模型参考结果和工具参考结果均为按照与目标指令相匹配的方式确定的;任务模块,用于基于所述模型执行结果和所述模型参考结果,确定任务完成评估结果;工具模块,用于基于所述工具调取结果和所述工具参考结果,确定工具调用评估结果。
12、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,其中,上述一个或多个处理器执行上述一个或多个计算机程序以实现上述方法的步骤。
13、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
14、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
15、利用本公开的实施例提供的通过细粒度分类建模提升大语言模型代理评测准确度的方法,模型参考结果和工具参考结果均为按照与目标指令相匹配的方式确定的,突出将目标指令按照预定细粒度的划分方式进行划分,使得评测精度高。此外,确定了任务完成苹果结果和工具调用评估结果,从模型执行能力以及工具调取能力两方面进行评测,评测范围广。
技术特征:
1.一种通过细粒度分类建模提升大语言模型代理评测准确度的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定模型参考结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述指令类型包括固定式指令类型,所述固定式指令类型表征所述模型参考结果唯一的类型;
4.根据权利要求2所述的方法,其特征在于,所述指令类型包括开放式指令类型,所述开放式指令类型表征所述模型参考结果不唯一的类型;
5.根据权利要求2所述的方法,其特征在于,所述指令类型包括实时式指令类型,所述实时式指令类型表征模型输出结果随时间变化的类型;
6.根据权利要求2所述的方法,其特征在于,所述指令类型包括操作式指令类型,所述操作式指令类型表征用于调用数据库数据的类型;
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述确定工具参考结果,包括:
8.根据权利要求1所述的方法,其特征在于,所述基于所述工具调取结果和所述工具参考结果,确定工具调用评估结果,包括:
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
10.一种通过细粒度分类建模提升大语言模型代理评测准确度的装置,其特征在于,所述装置包括:
技术总结
本公开提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法,可以应用于人工智能技术领域。该通过细粒度分类建模提升大语言模型代理评测准确度的方法包括:将目标指令输入至大语言模型中,得到模型执行结果以及工具调取结果,其中,工具调取结果表征在大语言模型运行过程中调用工具的能力;确定模型参考结果和工具参考结果,其中,模型参考结果和工具参考结果均为按照与目标指令相匹配的方式确定的;基于模型执行结果和模型参考结果,确定任务完成评估结果;基于工具调取结果和工具参考结果,确定工具调用评估结果。本公开还提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的装置。
技术研发人员:熊德意,郭紫珊,黄宇霏
受保护的技术使用者:天津大学
技术研发日:
技术公布日:2024/11/28
技术研发人员:熊德意,郭紫珊,黄宇霏
技术所有人:天津大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
