Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学耿瑞获国家专利权

大连理工大学耿瑞获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学申请的专利基于多层级注意力机制的场景图生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116912579B

龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310872315.4,技术领域涉及:G06V10/764;该发明授权基于多层级注意力机制的场景图生成方法是由耿瑞;林恺;杨韬;张强设计研发完成,并于2023-07-17向国家知识产权局提交的专利申请。

基于多层级注意力机制的场景图生成方法在说明书摘要公布了:本发明属于人工智能计算机视觉领域,具体涉及一种基于多层级注意力机制的场景图生成方法。首先使用预训练的目标检测网络获取图像中的对象信息,并从图像信息中获取的动态化层级先验知识,在此基础上通过多层级注意力结构对已有对象及对象对特征进行编码,最终分类得到对象类别及关系类别并获得场景图。本发明构建了一种更清晰的方式来表达物体的层次关系,并有效的利用层级注意力,使得结果的生成更依赖于对其影响更大的子区域,提高了结果的精确度。

本发明授权基于多层级注意力机制的场景图生成方法在权利要求书中公布了:1.基于多层级注意力机制的场景图生成方法,其特征在于,步骤如下: 步骤1采用目标识别网络识别目标对象类别及候选框 场景图生成任务包括目标识别和关系生成两个阶段,目标识别阶段主要是为了获取原始图片中对象的特征表示、位置框和标签分布,以便于将其作为关系生成阶段的模型的输入; 对于目标识别阶段来说,首先,将原始图片输入到预训练过的卷积特征提取层来提取图片的特征;然后,构建用于选出物体目标框的RPN网络,将通过卷积特征提取层输出的特征图作为RPN网络的输入,RPN网络的输出输入至全连接层得到候选框的分类及边界框回归,从而获得包含物体的区域; 具体来说,RPN网络接收卷积特征提取层获得的维度为H×W×D的特征图,并且在特征图的每一点都放置k个Anchor,设置k个大小的Anchor值,计算Anchor与真实物体IoU值: 公式1中,p*代表Anchor为前景或背景,将真实物体IoU大于0.7的Anchor视为前景,小于0.1的视为背景,大于0.1并小于0.7的所有点忽略不计;其中IoU大于0.7的Anchor为前景,即将其视为有效的点,并计算所有有效点Anchor预测值与实际边框的偏移量: 其中[xa,ya,widtha,heighta]为Anchor的中心坐标点以及宽高,[Δxcenter,Δycenter,Δwidth,Δheight]为预测的中心坐标点以及宽高的偏移量,通过该偏移量对所有有效的原始Anchor进行修正,以此方式获得最后的候选框; 经过RPN网络,得到了没有具体类别但是可能含有物体的候选框,将候选框特征图裁剪出并输入到两个具有ReLU激活层的全连接层的分类网络中,然后进行分类和回归,最终得到n个对象的图像区域R,生成的每个对象信息包括物体类别、概率值以及物体候选框; 步骤2图像的层级结构生成 对于步骤1中使用目标识别网络获得了n个图像区域R,首先按照区域面积递减的顺序对所有区域进行排序,对于每个区域ri,测量ri与其余所有节点的IoU值;如公式3所示: 其中MLP为多层感知机,fxi,xj为VG数据集上训练过的预训练函数,用来获取物体xi及xj类别的相关程度分值,gxi,xj为物体xi及xj的交并比IoU值;Sij为利用fxi,xj及gxi,xj计算得到的分数矩阵,该矩阵为对称邻接矩阵,其值大小表示了每个对象对之间的相关程度,在语义层面及像素层面两个角度共同判断了物体框的相关程度; 获取相关度评分矩阵S后,为了构建更为合理的层级结构,使得层级结构中父节点与其对应的子节点的依赖关系更为清晰,使用Prim的最小生成树算法;具体来说,首先选取根节点i为Sij中的最大值∑j≠iSij,其次将候选结点中每一个未连接的结点连接到与其最相关的节点,通过递归的方式构建树结构;分析此时得到的层级结构,发现其存储方式为多分支的树,为了使此时得到的稀疏结构更能体现出层次关系和并行关系,对其进一步处理,具体来说,将每个父节点除最左侧节点之外的子节点都连接到该左侧子结点上,使得其成为该节点的右节点,则所有的左侧分支都表示层次上下文,右侧分支表示平行上下文,通过该方法将层次关系和并行关系区分开来,最终获得生成图像的层级结构; 步骤3对象上下文信息更新及关系生成 在经过目标识别网络识别目标对象类别及候选框以及层级结构生成后,通过对对象特征进行上下文信息编码,使其特征具有全局的上下文信息,最后使用该特征进行对象类别更新以及关系生成;具体来说,为了更好的编码上下文信息,采用TTrans结构,TTrans使用自注意力机制对步骤1获得的对象位置、对象类别、候选框内的图像特征的信息的上下文感知进行编码;每个编码器都是用自注意力机制对特征进行编码,注意力机制主要由注意力和前馈网络组成,注意力矩阵计算如下: Q、K、V是同一个输入特征通过三个不同线性变换层得到的特征表示,其分别代表了不同的涵义,Q为维度是dk的查询向量组成的查询矩阵,K为维度是dk关键向量组成的键值矩阵,V为维度是dk的值向量组合成的值矩阵,T表示转置; 在注意力机制中首先要得到查询概率矩阵E,如公式5所示,该矩阵代表了每个特征与其余特征的关联程度,E不仅是由查询矩阵Q和关键字K决定,同时还由步骤3中得到的层级组成先验S决定,S为表示每个对象对关联程度的得分矩阵,为了使每个位置更关注于和其相关的位置,TTrans通过先验矩阵S约束查询概率矩阵E,如下所示: 其中·表示每个元素相乘,如果Sij的值比较小,则注意力Eij也随之减小;通过公式5中的多层级注意力生成方式,利用先验矩阵约束注意力机制,使得最后生成的含有全局上下文信息的特征更为合理;而对于输入到注意力机制中的对象特征,将其表示为下式: ev=Wo[posbv,gv,ebdcv]6 公式6中,[,]表示级联运算,posbv表示对象的位置编码信息,gv表示对象的视觉特征信息,ebdcv是用于对象cv的类型标签所对应GloVe编码,Wo表示将信息初始化成输入注意力机制的线性变换层;将对象特征ev送入k层的TTrans编码其中获取对象的最终特征将最终特征送入对象分类器产生对象的最终分类结果: 公式7中,W为对象分类矩阵,pv为对象的最终分类结果; 在对关系的特征进行编码之前,首先进行特征融合操作以生成关系的基本表示;对于每个对象对连接相应对象特征,最后将其送入关系分类器,将最后生成的特征经过分类得到关系的结果;如公式8所示: 其中表示对象对中i,j的上下文编码特征,rv表示关系的最终分类结果;最后,通过将对象对与其关系连接得到主题实体-视觉关系-对象实体的视觉三元组,得到了最终生成的场景图。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。