人机交互处理方法、装置、设备及存储介质与流程

2025-05-27 13:20:06 779次浏览

技术特征：

1.一种人机交互处理方法，其特征在于，包括：

2.根据权利要求1所述的人机交互处理方法，其特征在于，所述将所述图像、所述结构化信息以及所述操作指令输入预先训练得到的多模态大模型，生成所述操作指令对应的任务语句之前，还包括：

3.根据权利要求1所述的人机交互处理方法，其特征在于，所述图像处理模型包括：视觉定位模型以及文字识别模型；

4.根据权利要求1所述的人机交互处理方法，其特征在于，所述多模态大模型包括：预处理模块、拼接模块以及处理模块；

5.根据权利要求4所述的人机交互处理方法，其特征在于，所述预处理模块包括：分割模块以及线性映射层；

6.根据权利要求1所述的人机交互处理方法，其特征在于，所述针对所述用户界面执行所述任务语句，并向所述用户输出执行结果，包括：

7.根据权利要求6所述的人机交互处理方法，其特征在于，所述确定所述任务语句在所述用户界面中对应的待操作区域以及待执行操作，包括：

8.一种人机交互处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述的人机交互处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的人机交互处理方法的步骤。

技术总结
本申请提供了一种人机交互处理方法、装置、设备及存储介质，其中，该方法包括：按照预设的频率获取用户界面的图像；获取用户的操作指令；将图像输入预先训练得到的图像处理模型，对图像进行内容提取，生成图像对应的结构化信息；将图像、结构化信息以及操作指令输入预先训练得到的多模态大模型，生成操作指令对应的任务语句；针对用户界面执行任务语句，并向用户输出执行结果。本申请通过能够对多模态信息进行准确的整合以及推理决策，实现多模态下的人机交互，同时，还可以通过多次执行本申请实施例提供的人机交互处理方法，以对用户复杂的操作需求进行人机交互处理，使得本申请实施例提供的人机交互处理方法还能够适用于复杂工业场景下。

技术研发人员：王峰,梁新乐,辛伟
受保护的技术使用者：无锡雪浪数制科技有限公司
技术研发日：
技术公布日：2024/11/18

文档序号 : 【 40051919 】

技术研发人员：王峰,梁新乐,辛伟
技术所有人：无锡雪浪数制科技有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

王峰丨梁新乐丨辛伟丨无锡雪浪数制科技有限公司