融合动态异构超图神经网络与Transformer的视觉文本问答学习方法

2025-09-11 15:20:06 212次浏览

技术特征：

1.融合动态异构超图神经网络与transformer的视觉文本问答学习方法，其特征在于，包括如下步骤：

技术总结
本发明公开了融合动态异构超图神经网络与Transformer的视觉文本问答学习方法，属于深度学习及在多模态数据处理中的应用技术领域；本方法将图像的场景图信息和文本问题通过图结构化处理将数据预处理；基于随机游走生成超图的方式，将原始数据预处理成超图对；根据超边上的节点特征赋予初始超边权值，通过超图神经网络得到包含复杂结构关系的各模态特征。基于Transformer的自注意力和交叉注意力机制，关注不同模态的各自特性及模态间的重要交互信息。通过对两种注意力的组合，找到答案区域内的相关结构信息；通过得到的注意力权值，动态更新超图对的超边权重；本发明利用Transformer框架的自注意力和交叉注意力机制，进一步细化对关键信息的识别和处理能力。

技术研发人员：杨宏燕,刘雪涛,姚旗,韩红桂
受保护的技术使用者：北京工业大学
技术研发日：
技术公布日：2024/11/18

文档序号 : 【 40048308 】

技术研发人员：杨宏燕,刘雪涛,姚旗,韩红桂
技术所有人：北京工业大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

杨宏燕丨刘雪涛丨姚旗丨韩红桂丨北京工业大学