Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京工业大学尹宝才获国家专利权

北京工业大学尹宝才获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京工业大学申请的专利一种基于多流3D卷积神经网络的多视角手语识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115527273B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211297694.0,技术领域涉及:G06V40/20;该发明授权一种基于多流3D卷积神经网络的多视角手语识别方法是由尹宝才;赵宏智;关忠;胡永利设计研发完成,并于2022-10-22向国家知识产权局提交的专利申请。

一种基于多流3D卷积神经网络的多视角手语识别方法在说明书摘要公布了:本发明公开了一种基于多流3D卷积神经网络的多视角手语识别方法,该方法基于多流3D卷积神经网络以处理多视角手语识别,使用3D卷积神经网络提取手语数据的时空特征;基于多流卷积神经网络结构达到同时输入多视角手语数据进行训练;通过多视角融合模块来融合网络每个流的识别结果,从而充分利用不同视角手语数据的互补信息,使得多视角手语识别更准确。

本发明授权一种基于多流3D卷积神经网络的多视角手语识别方法在权利要求书中公布了:1.一种基于多流3D卷积神经网络的多视角手语识别方法,其特征在于,使用相机作为采集设备,采集得到手语数据的RGB视频;使用5台相机,分别从被采集者的正前方、上斜前方、下斜前方、左斜前方和右斜前方5个不同角度进行采集,得到不同视角的手语数据;得到不同视角的手语数据后,对手语数据进行处理,使其构成多视角原始手语数据集; 首先,将手语数据以RGB视频的形式从相机中读取出来,得到手语数据;然后,对不同视角的手语数据进行对齐,并对手语数据采集过程中产生的噪声进行去噪处理;接着,对手语数据进行分词处理,将完整的手语数据分割为词级短视频,并对词语出现的频率进行统计;最后,选取词频前11和前30的词语,构成IWS11和IWS30数据集;IWS11和IWS30数据集所包含的手语数据均采集于五个不同视角,IWS11数据集包含11个类别的手语数据,而IWS30数据集包含30个类别的手语数据;同时,IWS11数据集中手语数据的时间长度较长,而IWS30数据集中手语数据的时间长度较短;针对IWS11数据集和IWS30数据集的手语识别,在手语数据输入多流3D卷积神经网络之前,采取不同的手语数据分割策略;实现该多视角手语识别方法的模型由3D卷积神经网络模型、多流卷积神经网络模型、多视角融合模块三个部分组成; 3D卷积神经网络模型由8个卷积层、5个池化层、2个全连接层和1个Softmax层组成;卷积层作用是通过卷积操作提取输入数据的特征,池化层的作用是通过池化操作对卷积层中提取的特征进行挑选;全连接层的作用是将池化层挑选后的特征转化为一维特征向量,并对输入数据进行有效的识别;Softmax层的作用是对全连接层输出的一维特征向量进行归一化,得到输入数据属于每一类的概率值,从而输出最终的识别结果;3D卷积神经网络通过三维卷积和三维池化,同时学习时间域和空间域x,y,t三个维度的特征,捕获手语数据的运动信息,具体表达式如下: 其中,fx,y,t表示特征图上时空位置x,y,t处的单位,vx+iy+jt+k表示时空位置x+i,y+j,t+k处的输入单元,wi,j,k表示三维卷积核的权重参数,b表示特征图的偏差,a·表示激活函数; 3D卷积神经网络以手语数据作为输入,以不同手语类标签的识别结果作为输出;首先,会对每个视频帧的大小进行裁剪,所有视频帧的尺寸大小被调整为128×117;然后,通过滑动窗口将手语数据分割成不重叠的手语片段,对于不同时间长度的手语数据,分割成不同的手语片段;将IWS11数据集中的手语数据分割成16帧的手语片段,将IWS30数据集中的手语数据分割成8帧的手语片段,输入到3D卷积神经网络中;接着,3D卷积神经网络通过多层三维卷积和池化操作,提取手语片段的时空特征,在训练过程中,为得到更好地输出结果,对输入的手语片段进行尺寸大小为112×112的随机剪裁;最后,经过全连接层和Softmax层得到不同手语类标签的分类结果,输出最终识别结果; 多流卷积神经网络模型将单流卷积神经网络扩展成多流卷积神经网络,使卷积神经网络原本的单输入变成多输入,以满足多视角手语数据同时输入、训练,并为之后不同视角手语数据的融合做准备; 多视角手语数据同时输入到多个结构相同的3D卷积神经网络中,并行处理;不同流的3D卷积神经网络通过卷积层、池化层和全连接层分别提取不同视角手语数据的时空特征;然后将提取的时空特征输入到Softmax层中,对手语数据进行分类,得到不同流的识别结果;最后将不同流的识别结果同时输入到多视角融合模块中,进行相应的融合; 多视角融合模块为了融合以不同视角手语数据为输入的3D卷积神经网络不同流的识别结果,通过对多个识别结果进行加权平均计算,完成多视角手语数据的融合,从而得到多流3D卷积神经网络最终的识别结果; 考虑两种多视角融合模块的放置位置,两个位置融合的侧重点不同;一种是放置在多流卷积神经网络的输入位置,该位置处于多流卷积神经网络的底层,用于融合多视角手语数据的局部特征;另一种是放置在多流卷积神经网络的输出位置,该位置处于多流卷积神经网络的顶层,用于融合多视角手语数据的全局特征;不同视角手语数据的互补信息存在于全局特征之中,将多视角融合模块放置在多流卷积神经网络的输出位置,取得更好地融合效果; 多流3D卷积神经网络融合五个视角手语数据的识别结果,保存每个视角Softmax层的结果,Softmax层将全连接层的结果进行归一化,输出结果和损失函数的数学表达式如下: 其中,zj表示全连接层中第j类的输出结果,pj表示Softmax层中第j类的概率,ln表示真实样本标签; 根据每个视角在验证集上的准确率为每个视角分配权重,并将五个视角准确率的加权平均计算结果作为多流3D卷积神经网络最终的识别结果,具体计算公式如下: qRGB=amp;α1q1+α2q2+α3q3+α4q4+α5q5 其中,q1,2,3,4,5表示五个视角的识别结果,α1,2,3,4,5表示根据验证集上的准确率进行调整的超参数,qRGB表示多流3D卷积神经网络最终的识别结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。