华南理工大学高英获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利基于视频词边界的句子级别唇语识别方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117173779B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310990801.6,技术领域涉及:G06V40/20;该发明授权基于视频词边界的句子级别唇语识别方法、装置及介质是由高英;甄泓忠;蒋成龙;周纪咏设计研发完成,并于2023-08-07向国家知识产权局提交的专利申请。
本基于视频词边界的句子级别唇语识别方法、装置及介质在说明书摘要公布了:本发明公开了一种基于视频词边界的句子级别唇语识别方法、系统、装置及介质,属于机器视觉与自然语言处理领域。其中方法包括以下步骤:获取视频数据,根据视频数据获取视觉特征序列;其中,视觉特征序列的长度与视频数据的长度一致;将视觉特征序列输入利用视频词边界的句子级别唇语识别模型,输出视频中每一帧对应各个字符的预测概率,实现句子级别唇语的识别。本发明通过在句子级别唇语识别模型中引入视频词边界信息,提高模型对视频中各个词汇对应视频持续时间的掌握程度,从而使模型预测句子的词数更准确,进而提高模型识别出的句子长度的准确性。
本发明授权基于视频词边界的句子级别唇语识别方法、装置及介质在权利要求书中公布了:1.一种基于视频词边界的句子级别唇语识别方法,其特征在于,包括以下步骤: 获取视频数据,根据视频数据获取视觉特征序列; 将视觉特征序列输入利用视频词边界的句子级别唇语识别模型,输出视频中每一帧对应各个字符的预测概率,实现句子级别唇语的识别; 所述句子级别唇语识别模型包位置编码、视觉特征编码器、视频词边界信息嵌入模块、视觉特征解码器、一维卷积层和Softmax层;其中,视频词边界信息嵌入模块利用视频词边界增强编码结果,以辅助解码过程; 其中,视觉特征序列作为位置编码的输入,位置编码的输出作为视觉特征编码器的输入;视觉特征编码器输出的中间表示与视频词边界信息相结合,作为视频词边界信息嵌入模块的输入,视频词边界信息嵌入模块输出融合视频词边界信息的中间表示,作为视觉特征解码器的输入; 视觉特征解码器的输出作为一维卷积层的输入,一维卷积层的输出作为Softmax层的输入,Softmax层输出字符的预测概率; 所述视频词边界信息以词边界时间的形式进行记录; 视频词边界信息嵌入模块对视频词边界信息进行以下处理: 使用序列Set=t1,…,tn表示视频中各个词汇的结束时间,即词边界时间,其中n为词汇的个数;将序列Set中的时间乘以视频帧率,得到词边界帧索引序列Sbfi,即: Sbfi=i1,…,in,ik=tk·f,1≤k≤n,tk∈Set 其中f为视频帧率; 使用词边界帧指示向量Vb=b1,…,bT来表示视频中的每一帧是不是词边界帧,其中T表示视频的帧数;词边界帧指示向量Vb与视频帧序列的长度相同; 词边界帧指示向量Vb在词边界帧索引处的元素值为1,在其他地方为0,即: 词边界帧指示向量Vb经过嵌入层,形成词边界帧指示矩阵Mb,即: Mb=embeddingVb 在此过程中,嵌入层将词边界帧指示向量Vb中的每个元素扩展为d维向量,其中d是对应于每一帧的中间表示向量的维数; 词边界帧指示矩阵Mb的大小与视觉特征编码器输出的对应与整个视频的中间表示矩阵Minter的大小一致;将词边界帧指示矩阵Mb和中间表示矩阵Minter对应位置的值相加,形成融合视频词边界信息的中间表示Mimb,即: Mimb=Minter+Mb。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510641 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励