Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华东师范大学林欣获国家专利权

华东师范大学林欣获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华东师范大学申请的专利一种基于多步推理的一阶段视觉定位模型构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115953569B

龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211621212.2,技术领域涉及:G06V10/22;该发明授权一种基于多步推理的一阶段视觉定位模型构建方法是由林欣;王月;叶加博设计研发完成,并于2022-12-16向国家知识产权局提交的专利申请。

一种基于多步推理的一阶段视觉定位模型构建方法在说明书摘要公布了:本发明公开了一种基于多步推理的一阶段视觉定位模型构建方法,所构建的模型由文本内容编码模块,图像编码模块,图像文本交互模块以及定位模块构成。文本内容编码模块用于对文本进行编码;图像编码模块用于对输入的图像进行编码;图像文本交互模块用于交互图像和文本编码,最后使用定位模块从多模态特征中预测文本所对应的图像内容边界框。本发明构建的一阶段视觉定位模型引入了一种新型图像文本交互策略,借助文本和图像的互指导,大幅数据减少中的冗余信息,提高了视觉定位的效率和准确性。

本发明授权一种基于多步推理的一阶段视觉定位模型构建方法在权利要求书中公布了:1.一种基于多步推理的一阶段视觉定位模型构建方法,其特征在于,该方法在构建过程中使用包含以下内容的数据集: 图像数据库I=I1,...,IN;以及其查询短语或引用表达式Qp={pi}i=1,...,M;短语或引用表达所对应的图像内容边界框其中是给定图像的短语或引用表达式的数量; 所构建的模型由文本内容编码模块、图像编码模块、图像文本交互模块以及定位模块构成;文本内容编码模块用于对文本进行编码;图像编码模块用于对输入的图像进行编码;图像文本交互模块用于交互图像和文本编码,最后使用定位模块根据交互后的多模态特征来预测文本对应的图像内容边界框; 构建过程如下: 1对文本进行编码构建文本内容编码模块 首先将输入的短语或引用表达式通过分词器分成离散的词序列,再利用BERT模型将离散序列转化为连续的具有上下文语义的文本特征,其形式化定义如下: 每个元素都代表了一个词的向量表示,其中tcls是一个包含整个句子上下文表示的特殊的标记,Nt表示序列的长度; 2对输入的图像进行编码构建图像编码模块 将输入的图像使用Darknet-53进行编码,得到的图像特征如下: 其中Dv表示视觉特征的维度,H、W是视觉特征的高度和宽度; 3图像文本交互模块 低阶交互: 对于给定的中间视觉特征图和文本表示模块将tcls视为条件特征,输出文本-条件视觉特征图;模块计算以文本为条件的视觉通道校正,来优化视觉特征的语义表示;然后以文本为条件的视觉空间校正,以更加关注与查询句相关的对象所在的区域; 具体而言,首先对应用2-D平均池化,降低其空间维数,得到其语义表示将f和tcls串联起来,经过sigmoid激活后将它们输入多层感知器,得到渠道注意分布沿着通道维度,在和之间执行元素相乘;具体公式如下: Ac=σMLP[f,tclsl 其中F′表示经过通道优化后的视觉特征图,σ为sigmoid激活,⊙为元素相乘; 将文本表示t广播到视觉特征图的每个空间位置,并将其与视觉特征连接起来;然后使用线性层将特征通道降维为1,并应用sigmoid激活得到注意力矩阵;文本条件的空间校正表述为: 其中,为空间注意图,为空间上优化的视觉特征图; 高阶交互: 对于给定的视觉特征图和文本特征序列T,首先应用二维平均池化,并通过线性变换将其投影到文本特征空间: 其中表示合并的视觉特征;将f作为视觉标记的一个特征,并将其插入到文本特征序列中;在此基础上,采用多头自注意即MHSA模块对视觉引导下的语言表征进行建模: 其中,表示多头自注意后的特征序列;这里的文本特征会被进一步送入下一步推理,而f借助注意力机制,查询和聚合来自文本特征的有用文本信息,用于当前的推理步骤中的视觉推理;将聚合的特征表示为f,并进一步将其融合回视觉特征中; 深度卷积将连接的特征融合在一起;此外,采用标准的CBAM模块增强特征表示能力;融合过程表述为: 其中表示融合调制的视觉特征,并被馈送到下一个推理步骤; 4定位模块 预测头为Anchor-free的形式,对于32×32=1024个位置的可视化特征地图,回归一个4D向量ti,j=li,j,ti,j,ri,j,hi,j,表示从左、上、右和下边界到每个位置中心的偏移量;并为每个预测的边界框预测一个置信度得分s,j,得分最高的框将是最终的预测: 在训练过程中,将中心5×5的区域指定为正样本;为了训练边界框回归,采用平滑L1损失;平滑L1损失在预测准确的情况下减小梯度,提高收敛性;为了提高模型的泛化能力,模型采用不受比例尺影响的广泛使用的GIoUloss;两个回归损失函数公式如下: 其中N为正样本集,t为模型预测的结果;为真值框的偏移量;为了训练置信度预测,模型引入了二元交叉熵损失: 这里Nn表示负样本集;s表示正样本的置信度;sn表示负样本的置信度;模型的训练目标是:

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。