Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 厦门大学纪荣嵘获国家专利权

厦门大学纪荣嵘获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉厦门大学申请的专利面向局部视觉建模的图像描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115964530B

龙图腾网通过国家知识产权局官网在2025-10-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310040601.4,技术领域涉及:G06F16/583;该发明授权面向局部视觉建模的图像描述生成方法是由纪荣嵘;孙晓帅;马祎炜;张晓庆;纪家沂设计研发完成,并于2023-01-13向国家知识产权局提交的专利申请。

面向局部视觉建模的图像描述生成方法在说明书摘要公布了:面向局部视觉建模的图像描述生成方法,涉及图像描述生成方法。包括:1模型输入特征在编码器模块通过多头自注意力模块细化特征提取;2用局部敏感性注意力获取到的注意力权重矩阵对多头自注意力模块输出的特征进行重新加权,将相邻网格之间的依赖关系细化;3用前馈神经网络实现通道域的互动,建立通道域上视觉特征的联系;4用空间偏移操作将网格与其相邻的网格对齐,获取偏移后的特征表示;5将偏移后的特征表示聚合后使用多层感知机实现视觉特征在通道域和空间域的互动;6融合后的特征输出加权后与顶层编码器的输出加总,得到输入解码器的融合特征表示。提高局部视觉信息的标注质量,性能优异。

本发明授权面向局部视觉建模的图像描述生成方法在权利要求书中公布了:1.面向局部视觉建模的图像描述生成方法包括以下步骤: 1模型输入特征在编码器模块Encoder通过多头自注意力模块细化特征提取,具体方法如下: 编码器模块Encoder包括多头自注意力模块MSA、局部敏感性注意力模块LSA和前馈神经网络FFN,Vl-1首先经过多头自注意力模块处理,多头自注意力模块MSA处理后的输出数据V’l-1与输入数据Vl-1求和后进行归一化处理,如下所示: V’l-1=LNVl-1+MSAVl-1,Vl-1,Vl-1 其中,MSA·是Transformer中标准的多头自注意力模块,LN·表示归一化处理,多头自注意力模块MSA的输出特征使用局部敏感性注意力捕捉V’l-1相邻网格之间的依赖性,从而进一步细化视觉特征,计算如下所示: V”l-1=V’l-1+LSAV’l-1 将局部敏感性注意力的输出喂入前馈神经网络FFN,实现通道域之间的互动,如下所示: Vl=V”l-1+FFNV”l-1 其中前馈神经网络FFN的表达式如下所示: FFNx=max0,xW1+b1W2+b2 在Encoder的输出喂入decoder之前,加入局部敏感性融合模块,通过融合所有的编码器层的视觉特征,避免底层Encoder的语义信息和特征信息丢失,从而通过局部敏感性融合模块获得了丰富的语义特征: V*=LSFV1,V2,…,Vn 2用局部敏感性注意力模块获取到的注意力权重矩阵对多头自注意力模块输出的特征重新加权,将相邻网格之间的依赖关系细化,具体方法如下: 多头注意力模块输出网格序列特征是其中N表示网格数量,C表示通道维度,多尺度局部敏感性注意力模块首先要对网格序列进行维度重塑,将转为方便后续卷积操作,然后通过中间有ReLU作为激活函数的两层D多维卷积神经网络,如下所示: 其中,σ·表示激活函数,MSCi·表示通过多分支卷积实现的多维度卷积操作,如下所示: 其中i∈{1,2},N是分支数量,BNj·是BatchNormalization操作,Fj·表示恒等映射操作,一个或者几个卷积模块串联,j∈{1,…,N}; 模型训练过程使用多分支结构的MSCi·,在推理过程中,多分枝结构的MSCi·通过使用结构化重参数技术,在没有效率损失的前提下被简化为单分支结构来节约参数数量和计算成本: MSCix→Fix 其中,Fix表示3×3的卷积操作,i∈{1,2}; 使用Sigmoid函数对卷积层的输出正则化,获得每个网格的权重,最后根据局部敏感性注意力模块得到的权重映射对多头注意力模块的输出V'重新加权,如下所示: 其中,表示元素级乘法; 3用前馈神经网络FFN实现通道域的互动,建立通道域上视觉特征的联系; 4用空间偏移操作将网格与其相邻的网格对齐,获取偏移后的特征表示; 5将偏移后的特征表示聚合后使用多层感知机实现视觉特征在通道域和空间域的互动; 6将采用局部敏感性融合模块融合后的特征输出加权后与顶层编码器模块的输出加总,得到输入解码器的融合的视觉特征表示,具体方法如下: 将Encoder中所有层级的特征进行融合,并将融合后的特征喂入decoder;通过引入简单的空间偏移操作,将每个网格与其相邻的网格对齐,从而使多层感知机不仅在通道域互动,而且实现在空间域上互动,使用不同的空间偏移操作的第1和第2个Encoder层分别由下式表示: V1[ds:h,:,:c4]=V1[0:h-ds,:,0:c4], V1[0:h-ds,:,c4:c2]=V1[ds:h,:,c4:c2], V1[:,ds:w,c2:3c4]=V1[:,0:w-ds,c2:3c4], V1[:,0:w-ds,3c4:c]=V1[:,ds:w,3c4:c], 第l层Encoder用Vl表示Vi表示第i个Encoder层的输出特征,ds表示空间偏移的偏移距离; 将来自不同层的偏移特征串联在一起,从而实现多层特征融合,如下所示: Vc=ConcatV1,V2,V3 通过空间偏移操作将每个网格和他相邻的网格对齐,解决多层感知机不能对邻近网格建立关系的问题,即多层感知机实现通道域和空间域的对话: σ·是ReLU激活函数,是可学习的映射矩阵; 为了进一步增强视觉特征的描述能力,融合后的特征输出加权后与顶层Encoder的输出加总,如下所示: VTOP是顶层编码器的特征,λ是权重因子;将最终输出V*喂入Ecoder进行解码操作。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361005 福建省厦门市思明区思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。