Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆师范大学杨有获国家专利权

重庆师范大学杨有获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆师范大学申请的专利一种基于双特征协作关系注意力网络的视觉问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116486405B

龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310212230.3,技术领域涉及:G06V20/70;该发明授权一种基于双特征协作关系注意力网络的视觉问答方法是由杨有;姚露;胡峻滔设计研发完成,并于2023-03-07向国家知识产权局提交的专利申请。

一种基于双特征协作关系注意力网络的视觉问答方法在说明书摘要公布了:本发明涉及视觉问答技术领域,具体涉及一种基于双特征协作关系注意力网络的视觉问答方法,包括构建几何相关自注意力模块;构建关系增强交叉注意力模块;基于几何相关自注意力模块和关系增强交叉注意力模块构建双特征协同关系注意力网络;将问题和图像进行预处理后,输入双特征协同关系注意力网络模型进行预测,得到预测答案,在编码器‑解码器框架的基础上,的模型使用一个全新的多级协同解码层堆叠,实现了区域特征和网格特征之间深层语义的关联,通过几何相关自注意力单元,编码了图像的几何信息,实现了特征和空间属性的整合,从而解决传统VQA模型对对象之间关系和细节特征探索不充分的问题。

本发明授权一种基于双特征协作关系注意力网络的视觉问答方法在权利要求书中公布了:1.一种基于双特征协作关系注意力网络的视觉问答方法,其特征在于,包括以下步骤: 构建几何相关自注意力模块,所述几何相关自注意力模块,用于图像的Self-Attention自注意力; 构建关系增强交叉注意力模块,所述关系增强交叉注意力模块,用于实现区域特征和网格特征的层间互补强化; 基于所述几何相关自注意力模块和所述关系增强交叉注意力模块构建双特征协同关系注意力网络; 将问题和图像进行预处理后,输入所述双特征协同关系注意力网络模型进行预测,得到预测答案; 所述几何相关自注意力模块的具体方式为: 构建位置相关注意力模块; 基于所述位置相关注意力模块融入位置编码器,得到几何相关自注意力模块; 位置编码器:位置编码在原始Transformer起到了重要作用,代替传统RNN循环神经网络来获取单词位置;同样,图像特征也有位置信息,具体为每个特征的空间坐标;我们使用这些位置信息计算图像特征的位置编码; 空间位置编码SpatialPositionalEncoding,SPE是指特征在图像中的绝对位置,是独立的信息;对于网格和区域两种特征,我们分别使用两种不同的方式来计算SPE的输出值;对于网格特的空间位置编码,由于在空间内把图像分为个均匀的网格,因此不同图像中的特征位置是固定的;我们使用两组不同频率的1维正弦和余弦编码来获取网格特征的空间位置编码: 其中表示每个特征在网格中对应的行索引和列索引,并且表示位置为的特征的空间位置编码,由对应行列的编码获得,通过以下公式计算: 其中表示每个特征对应的行或者列的索引,表示相对于零点的位置;区域特征的空间位置编码,不能根据以上的公式去获取,原因是不同图像中的区域特征位置不是固定的;我们通过编码区域特征的位置向量来获得区域空间位置编码: 其中为特征序号,为映射参数矩阵,为第个区域特征的空间位置编码; 相对位置编码RelativePositionalEncoding,RPE是指图像中每个特征彼此之间的参照关系;使用位置向量来计算每个特征的几何信息,包括中心位置坐标,相对宽度和相对高度: 其中是单个特征的几何信息,是一个4-d的向量,来自区域和网格特征的位置向量;然后,我们使用每个特征对应的来计算RPE;首先,将特征和之间的相对关系表示为4维向量: 然后,使用编码方法将4维的映射到64维的高维空间,具体方法是计算不同频率的正弦和余弦函数;由于我们在多头模式下使用RPE,最后将编码结果映射为组1维标量: 其中为最终得到的特征之间的RPE,表示特征序号,为可学习的映射参数矩阵,进行次映射; 所述关系增强交叉注意力模块:首先将前面处理后的区域特征和网格特征在数量维度上拼接: 其中为拼接之后的特征,将其作为送入RACA的key和value,并且query分别为; 向单个注意力中送入一组,为区域和网格特征中的一类,;首先,向中加入对应的空间位置编码,并将其送入多头注意力: 其中为更新之后的特征;设计关系强化模块RAM,再次细化多头注意力计算所得的注意力权重,对再次进行关系强化;首先,把多头注意力所得权重映射为两个不同的权重: 其中表示多头注意力权重的集合,为全局权重,用来强化上下文特征,为特征自身权重,注重特征本身的信息,为映射参数矩阵,我们先处理两个权重矩阵;对于,我们先使用对应的mask对其进行过滤,向其中加入相对位置信息,最后通过softmax函数来重新计算每个特征的权重: 其中为更新后的上下文权重,为query和key的对应的RPE;对于,我们直接把它送入mask和softmax进行更新: 其中为处理后的自身权重;然后,我们利用和去强化中特征之间的相关性;这部分同样使用多头机制;首先,与做点集,来细化全局对个体的影响;然后使用残差连接的方式将与value相加,目的是保留原有的特征内容: 其中为强化后的特征,表示每个头计算的具体内容,表示第个头做线性变换的参数;最后,将与点积,实现几何信息和特征的关联: 其中为RAM的输出,表示每个头的计算方式,为第个头的变换参数,为结果的线性变换参数;最终,将与原始相加,得到经RACA单元处理的结果: 其中为区域和网格特征中的一种,为两种图像特征的拼接结果; 将MLCD细分为三个子模块;首先,我们通过GRSA-GA-FFN子模块将图像特征与几何信息结合起来,获得与问题相关的区域和网格信息;其次,我们通过RACA-GA-FFN子模块计算对象和全局之间的关系;最后,由于前面两个GA单元根据问题过滤了部分图像信息,实际上削弱了图像特征在整个模型中的影响,而在特征融合部分,模型更倾向于获得特征本身的权重属性,因此我们利用传统的Cross-Attention交叉注意力建立SA-CA-FFN子模块,再次关注图像中的特征信息;CA单元的计算方法是: 其中表示区域或网格特征中的一种;我们设计了由层MLCDLayers用表示堆叠成的视觉解码器: 其中;最终,通过视觉解码器处理所得的区域特征和网格特征分别为。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆师范大学,其通讯地址为:401331 重庆市沙坪坝区大学城中路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。