Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 合肥工业大学;合肥工业大学智能制造技术研究院;安徽省纤维检验局;广西科学院赵仲秋获国家专利权

合肥工业大学;合肥工业大学智能制造技术研究院;安徽省纤维检验局;广西科学院赵仲秋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉合肥工业大学;合肥工业大学智能制造技术研究院;安徽省纤维检验局;广西科学院申请的专利基于时空局部调和神经网络的视觉语言识别方法及应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115937942B

龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211581854.4,技术领域涉及:G06V40/16;该发明授权基于时空局部调和神经网络的视觉语言识别方法及应用是由赵仲秋;彭晨;丁丞;吴霜;李军设计研发完成,并于2022-12-09向国家知识产权局提交的专利申请。

基于时空局部调和神经网络的视觉语言识别方法及应用在说明书摘要公布了:本发明公开了一种基于时空局部调和神经网络的视觉语言识别方法及应用,其步骤包括:1数据预处理;2构建基于时空局部调和神经网络的视觉语言识别模型;3网络模型的训练。本发明能解决现有的视觉语言识别方法对时间特征,空间特征提取能力不足,方法单一,不注重不同信息的差异性等问题,从而能在说话者姿态,语速变化频繁的场景中准确识别单词内容,进而为视觉语言识别提供了一种新的解决方法。

本发明授权基于时空局部调和神经网络的视觉语言识别方法及应用在权利要求书中公布了:1.一种基于时空局部调和神经网络的视觉语言识别方法,其特征包括如下步骤: 步骤1:数据预处理: 步骤1.1:获取带有单词标签的视觉语言数据集,并对其中的视频图像数据进行灰度化处理后,再对人脸关键点进行标定和对齐,使得人脸处于图像的中间位置处,从而得到人脸图像序列,记为,表示第帧人脸图像;n表示人脸图像的总数; 步骤1.2:对所述人脸图像序列中每帧人脸图像的嘴唇区域进行大小为裁剪,并对裁剪后的嘴唇区域进行随机裁剪,从而得到大小为的唇读序列,记为;其中,表示第帧人脸图像的唇读区域,; 步骤2:构建基于时空局部调和神经网络的视觉语言识别模型,包括:3D时空特征提取模块、空间调和模块、时间调和模块、2D空间特征提取模块、时序卷积模块以及一个分类器; 步骤2.1:所述3D时空特征提取模块由个3D块依次串联组成,且每3D块由一个卷积层、一个BN层与ReLU激活函数依次串联而成; 所述唇读序列输入所述3D时空特征提取模块中,并依次通过个块的处理后,得到时空特征,为第个人脸图像的唇读区域的3D时空特征; 步骤2.2:所述空间调和模块由个2D空间块以及可变形卷积组成,其中,任意第个2D空间块由一个卷积核为×的卷积层、一个BN层与ReLU激活函数依次串联而成;为大于等于3的奇数; 步骤2.2.1:所述3D时空特征输入所述空间调和模块中,分别输入前2个2D空间块中进行处理后,相应得到时空特征与,其中,,分别代表第个3D时空特征通过第1个、第2个2D空间块后的2D时空特征; 将,在时间维度上进行连接后得到拼接时空特征,为第个拼接时空特征; 步骤2.2.2:若,则所述拼接时空特征输入第个2D空间块中进行处理得到空间调和的偏移量,记为,其中,代表第个空间调和的偏移量;否则,所述拼接时空特征继续步骤2.2.1的过程输入后续的2D空间块中进行处理; 再将时空特征与偏移量一同输入到可变形卷积DCN中进行处理,并得到空间调和的时空特征,其中,为第个空间调和后的时空特征; 步骤2.3:所述时间调和模块由个2D时间块以及可变形卷积组成,其中,任意第个2D时间块由一个卷积核为的卷积层、一个BN层与ReLU激活函数依次串联而成; 步骤2.3.1:空间调和的时空特征输入所述时间调和模块中,并利用式1得到第个上下文时空特征,从而得到上下文时空特征: 1 式1中,为第个调和后的时空特征;为第个调和后的时空特征; 步骤2.3.2:将连接后得到的上下文时空特征依次前-1个2D时间块的处理后,得到级联时间调和,再经过第个2D时间块的处理后,得到时间调和的偏移量,记为,其中,代表第个时间调和的偏移量; 再将时空特征与偏移量一同输入到可变形卷积DCN中进行处理,并得到时间调和的时空特征,其中,为第个时间调和后的时空特征; 步骤2.4:所述2D空间特征提取由ResNet-18的前四层残差块组成,且每个残差块依次包括两个卷积层、一个BN层和一个ReLU激活函数; 所述时间调和的时空特征输入所述2D空间特征提取模块中,并依次通过四层的残差网络块的处理后,得到残差时空特征,为第个残差时空特征; 步骤2.5:所述时序卷积模块由个残差块组成,其中,任意第个残差块包含两层的时序卷积层和非线性映射层,每一层的时序卷积层连接一个BN层与ReLU激活函数;其中,任意第个残差块中的时序卷积层的卷积核大小为; 所述时空特征输入所述时序卷积模块中,并依次通过个残差块的处理后,得到时序卷积时空特征,为第个时序卷积时空特征; 步骤2.6:所述分类器由一个线性层与SoftMax函数组成; 所述时序卷积时空特征输入所述分类器,并经过所述线性层后得到分布特征,再通过SoftMax函数得到概率分布; 步骤3:网络模型的训练: 根据概率分布与真实的单词标签计算KL散度并作为损失函数,通过梯度下降方法对所述视觉语言识别模型进行训练,并计算损失函数以更新模型参数,直至模型逐渐收敛为止,从而得到训练好的视觉语言识别模型,用于对任意输入的人脸图像识别其唇语单词。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学;合肥工业大学智能制造技术研究院;安徽省纤维检验局;广西科学院,其通讯地址为:230009 安徽省合肥市包河区屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。