Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学王岚晓获国家专利权

电子科技大学王岚晓获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利基于多层属性引导的人群场景图像字幕描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115294353B

龙图腾网通过国家知识产权局官网在2026-01-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210837834.2,技术领域涉及:G06V10/44;该发明授权基于多层属性引导的人群场景图像字幕描述方法是由王岚晓;邱荷茜;赵泰锦;李宏亮;孟凡满;吴庆波;许林峰设计研发完成,并于2022-07-16向国家知识产权局提交的专利申请。

基于多层属性引导的人群场景图像字幕描述方法在说明书摘要公布了:本发明提出了一种基于多层属性引导的人群场景图像字幕描述方法,从输入图像中提取出区域级视觉特征、对应的位置信息以及人的动作特征;利用多层感知机得到完成特征嵌入映射后的视觉特征、位置特征和动作特征;通过设置的特征处理层与多层感知机依次得到全局视觉特征、局部特征、对象层次特征、动作层次特征和状态层次特征;利用全局视觉特征、对象层次特征、动作层次特征、状态层次特征和上一时刻的隐藏层状态得到融合特征;利用全局视觉特征、融合特征和上一时刻的语义特征得到当前时刻的语义特征;最后根据当前时刻的语义特征预测当前单词的概率分布并输出。本发明提取不同的层次人群属性特征,从而生成更具有人群特定的生动细节的描述。

本发明授权基于多层属性引导的人群场景图像字幕描述方法在权利要求书中公布了:1.基于多层属性引导的人群场景图像字幕描述方法,其特征在于,包括以下步骤: 1.图像特征提取步骤:从输入图像中提取出区域级视觉特征Fr、对应的位置信息Fp以及人的动作特征Fc; 2.视觉特征嵌入步骤: 利用多层感知机MLP将区域级视觉特征Fr、位置信息Fp以及动作特征Fc映射到同一特征空间中,分别得到完成映射后的视觉特征Vr、位置特征Vp和动作特征Vc; 3.多层次密集人群感知处理步骤: 设置特征处理层,所述特征处理层从区域级和通道级的注意力两个方面对输入的特征进行处理输出多层次特征,定义查询向量Q和值向量V为特征处理层的输入,特征处理层的输出Vout定义为: βr=softmaxW3tanhW1Q+W2V βc=softmaxW6tanhW4AvgPoolQ+W5V Vout=βc⊙βrV 其中,W1、W2、W3、W4、W5、W6均为特征处理层的权值,βr为区域级注意力特征,βc为通道级注意力特征,AvgPool为平均池化,tanh为双曲正切激活函数,⊙为哈达玛乘积,softmax为归一化指数函数; 3.1包含有N个特征向量的视觉特征Vr通过平均池化得到特征向量Vg,特征向量Vg进行N倍复制后与视觉特征Vr进行哈达玛积,将该哈达玛积的结果作为查询向量Q输入特征处理层,视觉特征Vr作为值向量V输入特征处理层,特征处理层的输出作为第一MLP的输入,第一MLP的输出为全局视觉特征Vglobal; 3.2对全局视觉特征Vglobal进行N倍复制后与视觉特征Vr进行特征级联后的特征作为第二MLP的输入,第二MLP的输出为局部特征Vlocal; 3.3全局视觉特征Vglobal进行N倍复制后和局部特征Vlocal进行哈达玛积,该哈达玛积的结果作为对象层次的查询向量Q输入至特征处理层,局部特征Vlocal作为对象层次的值向量V输入至特征处理层,特征处理层的输出作为第三MLP的输入,第三MLP输出对象层次特征Vobject; 3.4动作特征Vc和对象层次特征Vobject进行哈达玛积,该哈达玛积的结果作为动作层次的查询向量Q输入至特征处理层,动作特征Vc作为动作层次的值向量V输入至特征处理层,特征处理层的输出作为第四MLP的输入,第四MLP输出动作层次特征Vaction; 3.5位置特征Vp和局部特征Vlocal通过矩阵加法得到的加法结果作为状态层次的查询向量Q输入至特征处理层,对象层次特征Vobject和动作层次特征Vaction进行哈达玛积,该哈达玛积的结果作为状态层次的值向量V输入至特征处理层,特征处理层的输出作为第五MLP的输入,第五MLP输出状态层次特征Vstatus; 4.特征融合步骤:在每一时刻t均进行特征融合:将全局视觉特征Vglobal、对象层次特征Vobject、动作层次特征Vaction和状态层次特征Vstatus级联起来得到总特征V,再利用上一时刻的隐藏层状态ht-1和总特征V计算出权值,将总特征V与权值对应相乘进行加权,加权的结果再加上总特征通过平均池化处理得到的平均值,相加后的结果为当前时刻融合后的特征Vh; 5.密集人群导向的解码步骤:将全局视觉特征Vglobal、融合特征Vh和上一时刻的语义特征相加得到融合视觉特征;将上一单词的词嵌入向量与融合视觉特征在通道维度级联,将级联后的特征向量输入多层感知机MLP,多层感知机MLP输出特征Vin;再将特征Vin输入长短期记忆人工神经网络LSTM,LSTM输出当前时刻的隐藏层状态ht;将隐藏层状态ht和局部特征Vlocal经哈达玛乘积得到特征的查询向量,根据查询向量对局部特征进行加权得到优化后的局部特征V′local;将V′local、ht和Vin在通道维度级联,将级联后的特征输入至多层感知机MLP,MLP输出当前时刻的语义特征最后将语义特征进行全连接FC后输入Softmax函数预测当前单词的概率分布并输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。