河北大学崔振超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉河北大学申请的专利基于改进Transformer模型的手语视频生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115393948B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210821012.5,技术领域涉及:G06V40/20;该发明授权基于改进Transformer模型的手语视频生成方法是由崔振超;陈子昂;齐静设计研发完成,并于2022-07-13向国家知识产权局提交的专利申请。
本基于改进Transformer模型的手语视频生成方法在说明书摘要公布了:本发明提供了一种基于改进Transformer模型的手语视频生成方法以及装置。本发明中方法首先提取手语视频中的骨骼姿态序列,去除冗余信息以减少计算量。另外,考虑到时空信息对生成手语视频精度的重要性,设计富语义嵌入模块将位置和速度信息编码到相同的高维空间中作为模型的输入,提高关节运动的协调性,以提高特征表述的精确性。最后,构建呈金字塔结构的编码器‑解码器模型。编码器接受一个口语句子作为输入,并将序列中的信息编码为中间表示。然后解码器以半自回归的方式解码中间表示为目标手语姿态序列。通过本发明能够有效提高语义信息利用率和动作整体表达能力,由此明显提升手语视频生成的准确度和速度。
本发明授权基于改进Transformer模型的手语视频生成方法在权利要求书中公布了:1.一种基于改进Transformer模型的手语视频生成方法,其特征是,包括以下步骤: a、采用openpose提取目标手语视频中的目标手语姿态的二维骨骼序列,截取上身的8个关节点以及左右手的各21个关节点,进行模型训练;将表示手语姿态的二维数据提升为三维数据,通过观察三维数据的分布,对异常和错误关节处的骨架信息进行数据清洗后,形成目标手语姿态序列; b、把口语句子和目标手语姿态序列输入到编码器-解码器模型中,对编码器-解码器模型进行训练,以建立口语句子与目标手语姿态序列二者之间的映射关系;映射关系建立后即构成训练好的手语视频生成网络模型; c、利用训练好的手语视频生成网络模型对输入的口语句子进行处理,其输出即为每一时刻所对应手语的概率分布,最终实现端到端地将口语句子翻译成以人体骨骼与图形格式表达的个性化的手语视频; 编码器-解码器模型包括带手语长度预测的文本特征编码器以及结合富语义嵌入层的金字塔半自回归解码器; 步骤b中,编码器-解码器模型的训练方式是,将口语句子输入到文本特征编码器中学习语义特征并传递给金字塔半自回归解码器,在编码器的最后一层添加卷积神经网络和softmax分类器,进行手语长度预测;把目标手语姿态序列输入到金字塔半自回归解码器中,用以提取时空特征,通过引入Relaxedmasked-attention机制,以半自回归方式解码目标手语序列;经模型训练,建立口语句子与手语动作间的映射关系; 步骤b中,时空特征的提取是将时间维度与空间位移上的手语信息编码到相同的空间中作为模型的输入;金字塔半自回归解码器对目标手语姿态序列进行分组,各组之间保持级联特性,每个组内并行生成目标帧; 富语义嵌入层使用两层全连接网络FC和ReLU激活函数将位置和速度信息映射到同一向量空间。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河北大学,其通讯地址为:071002 河北省保定市五四东路180号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。