Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 桂林电子科技大学江泽涛获国家专利权

桂林电子科技大学江泽涛获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉桂林电子科技大学申请的专利一种基于分支预测的低照度图像描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117112828B

龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311298039.1,技术领域涉及:G06F16/583;该发明授权一种基于分支预测的低照度图像描述方法是由江泽涛;张路豪;熊邦书设计研发完成,并于2023-10-09向国家知识产权局提交的专利申请。

一种基于分支预测的低照度图像描述方法在说明书摘要公布了:本发明公开了一种基于分支预测的低照度图像描述方法,包括如下步骤:1处理图像描述数据集;2建立图像描述词库;3使用CLIP对图像及文本数据进行编码;4对编码得到的特征通过语义筛选器得到图像的单词池;5对图像进行增强和分支预测得到一组针对不同主体优化的注意力特征图;6对每个注意力特征图结合单词池得到与特征图匹配度高的文本特征;7对得到文本特征和图像特征解码生成描述语句。本发明采用分支预测的方法降低了模型对低照度图像特征的依赖程度,能够有效提高在低照度环境下图像描述模型的性能。

本发明授权一种基于分支预测的低照度图像描述方法在权利要求书中公布了:1.一种基于分支预测的低照度图像描述方法,其特征在于,包括如下步骤: 1处理图像描述数据集:处理图像描述数据集,降低图像的亮度得到低照度图像数据集,包括: 1-1采用公开的VisualGenome数据集,VisualGenome数据集不仅提供图像描述任务中描述句子的标注信息,还提供图像的RegionGraph、SceneGraph标注信息,对图像中不同的视觉元素和关系进行了标注; 1-2对图像采用ForkGAN进行昼夜转换,降低数据集中图像的亮度,得到低照度数据集VisualGenome-Night; 1-3对VisualGenome-Night数据集进行训练集和验证集的划分,该数据集共有108077张图像,按照8:2的比例划分出训练集和验证集,数据集中80%为训练集,共有86462张图像;数据集中20%为验证集,共有21615张图像; 2建立图像描述词库:对数据集中的描述文本进行抽取并通过筛选得到图像描述词库,包括: 2-1将VisualGenome数据集中所有图像的描述文本进行抽取,所有文本合并成一个大型文本文件,对大型文本文件采用空格、逗号、句号符号按照单词为单位进行分割、计算单词出现的频率; 2-2对单词进行筛选包括根据出现的频率去除掉单词出现频率低于3的单词,去除干扰项包括标点符号、数字和无关词汇stopwords; 2-3对词汇进行归一化处理包括将词汇库中的所有单词转换成小写,同时将相关单词的变体均映射为一个词干; 2-4将剩余的单词整合到一个文件中,形成最终的词库; 3构建图像编码器和文本编码器对文本和图像进行编码:采用CLIP对图像及文本数据进行编码,包括: 3-1对训练图像进行预处理包括将训练图像的尺寸统一缩放到512*512像素,确保输入数据的尺寸与模型的期望输入尺寸一致,同时保留小尺寸图像中重要的细节信息、对文本信息预处理就是将词库中相关的词进行组合成r个短的句子模板; 3-2采用CLIP-ViT-B32模型构建CLIP-I图像编码器和CLIP-T文本编码器,并加载CLIP的预训练权重; 3-3对输入图像和文本进行编码包括CLIP-I图像编码器接收图像输入并输出编码后的图像特征Vc,CLIP-T文本编码器接收文本输入并输出编码后的文本特征Tc; 4构建语义筛选器模块:对步骤3-3中编码得到的特征Vc和Tc采用语义筛选器得到图像的单词池,包括: 4-1对输入的图像特征Vc和文本特征Tc采用输入通道和输出通道均为512的全连接层linear、Relu激活层进行一次可学习的映射,同时将图像特征Vc和文本特征Tc映射到同一维度; 4-2计算经过全连接层linear和Relu激活层得到的图像特征Vc和文本特征Tc之间的余弦相似度,得到对应的余弦相似度矩阵Msim; 4-3对余弦相似度矩阵Msim采用softmax层映射为图像关于词库的概率向量Pt,然后根据设定的阈值T=0.2筛选出概率高于阈值T的词库元素,得到图像中元素及其关系映射到词库中的相应元素为图像对应的单词池; 5构建增强模块和分支注意力模块:对图像进行增强和分支预测得到一组针对不同主体优化的注意力特征图,用于分别对图像中不同的元素及其关系进行捕获,具体为: 5-1构建辅助增强模块首先将图像进行直方图均衡化,初步调整图像的整体亮度,再采用2倍上采样和2倍下采样操作,得到相当于原图尺寸4倍和14的两种图像,与原图组成一个图像金字塔,将图像金字塔中不同尺寸的图像通过3层3*3卷积和RELU池化操作进行特征提取,然后将提取后的特征下采样到原图的14大小并进行逐像素加和操作,得到增强后的特征作为自注意力分支模块中MaskedMulti-HeadAttention的输入K; 5-2输入图像首先经过三个卷积层,卷积层1和卷积层2不改变特征图的大小,同时采用残差连接保留图像特征信息,卷积层3将特征图的长宽都缩小为原来的12,同时采用最大池化操作将原图进行下采样,下采样后的特征图与卷积层3得到的特征图进行相加操作,其中,卷积层1是核为3*3,pad为1,输入通道为3,输出通道为64的卷积操作;卷积层2是核为3*3,pad为1,输入通道和输出通道为64的卷积操作;卷积层3是核为2*2,步长为2的卷积操作,卷积层3将特征图的长宽都缩小为原来的12;采用残差连接的方式将原图与卷积层1、卷积层2的输出进行逐像素相加操作,输入图像采用池化核为2*2,步长为2的最大池化操作将原图进行下采样,下采样后的特征图与卷积层3得到的特征图进行逐像素相加操作; 5-3对步骤5-2得到的初步特征图通过多头自注意力模块计算其注意力权重图; 5-4构建分支模块对步骤5-3得到的注意力图进行主体分离:首先对特征图进行7*7的下采样为对特征图进行降维,得到小尺寸的注意力图,再对小尺寸的注意力图采用一个5*5的值为1的固定参数卷积核计算各区域注意力权值,然后采用BatchNormalization对各区域注意力权值进行归一化处理得到权重矩阵W;然后初始化一个比例矩阵,比例矩阵的大小与权重矩阵W大小一样但值初始为全1,依次确定权重矩阵中top-k的值和位置记录到列表L中,k是控制分支数量的超参数;最后进行k次循环得到k个关注不同主体的k个特征图分支:第一次循环跳过最大值筛选、反卷积和上采样操作直接将分支模块的输入特征图送入self-attention中得到关于主体O1的特征图,其它第n次循环的具体操作是:①找到当前权重矩阵中的最大值Q1和Q2;②初始化比例矩阵,然后修改比例矩阵的值,将Q1位置的值修改为Q2Q1,将Q2位置的值修改为Q1Q2,并将比例矩阵与权重矩阵逐元素相乘得到新的权重矩阵;③将修改后的比例矩阵通过5*5的固定参数反卷积和7*7的上采样还原成与输入特征图大小相同的尺寸;④把输入特征图和得到的比例矩阵逐元素相乘;⑤送入self-attention中得到关于主体On的特征图; 5-5构建分支细节增强模块包括将得到的主体特征图分别送入卷积核为3*3,5*5,7*7的空洞卷积层Dil_Conv,然后对得到的图像特征进行拼接; 6对每个注意力特征图结合单词池采用语义聚集器得到与特征图匹配度高的文本特征,具体为:语义聚集器模块将从原始图像中检索的单词池与k个分支的特征图与采用语义筛选器得到的词池进行再匹配,采用注意力机制将与分支i有关的特征词进行聚集得到关于分支i的单词向量Di,具体操作为:将输入的k组分支的特征图通过CLIP-I进行编码,然后采用线性层映射到与单词池相同的维度,再将特征图作为多头交叉注意力MutilHeadcross-attention的query和key,将单词池的单词向量作为value,得到属于分支i的单词向量Di; 7对得到的文本特征和图像特征解码生成描述语句:构建联合句子解码模块生成图像对应的文本描述,该模块接收步骤5-4得到的k个特征图和步骤6得到的k个单词向量以及步骤5-4中得到的比例矩阵,输出完整的描述句子,包括: 7-1首先根据列表L给对应的特征图和单词向量分配权重,在步骤5中采用权重矩阵将每个特征图中的主体都调整到与原注意力图中最大权重的区域相同的注意力权重,所以在进行融合时要通过列表L记录的原始权重还原个特征图在原图中的权重大小; 7-2将分配权重之后的k个特征图进行拼接、将分配权重之后的k个单词向量进行拼接; 7-3采用MaskedMulti-HeadAttention逐个生成描述的单词,采用掩盖下一时间步的信息预测得到下一时间步的输出,从而生成完整的描述。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人桂林电子科技大学,其通讯地址为:541004 广西壮族自治区桂林市金鸡路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。