浙江工业大学俞山青获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119964053B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510040324.6,技术领域涉及:G06V20/40;该发明授权一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置是由俞山青;童啸瑞;吴添银;陈作辉;李澈;刘塞设计研发完成,并于2025-01-10向国家知识产权局提交的专利申请。
本一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置在说明书摘要公布了:一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置,包含一个基于多模态特征融合辅以注意力机制的神经网络模型,从单一模态和跨模态两个维度,分别对近距离的特征相似信息和远距离的特征差异信息进行整合分析,输出细粒度检测结果,其方法包括:首先,获取说话人伪造音视频数据集并进行数据预处理,用于模型的训练;然后构建本发明提出的神经网络模型,并训练至拟合;将待检测音视频进行相同的预处理操作后,输入训练完成的神经网络模型进行处理,最后由模型输出细粒度检测结果。本发明能解决对当前说话人深度伪造音视频缺乏精确细粒度检测方法的问题。
本发明授权一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置在权利要求书中公布了:1.一种基于多模态特征融合的深度伪造音视频细粒度检测方法,包括如下步骤: S1说话人伪造音视频训练数据集预处理:对训练所用音视频进行音频轨与视频轨的分离和时间维度的对齐;将音频轨和视频轨读取为张量的形式并且分割为多个片段,得到输入数据为;其中,为训练数据的总样本数,为模态标记,表示视觉模态,表示音频模态,为某模态下的张量,为某模态下的标签,{0,1},0代表当前样本在当前模态下是真实的,1表示当前样本在当前模态下存在伪造; S2构建并训练多模态鉴伪模型:A构建特征提取模块,分别构建视觉特征编码器和音频特征编码器,对音视频的视觉输入和音频输入进行特征提取,过程概括为: ,其中,为视频张量,为音频张量;B构建特征融合模块进行特征融合,堆叠3个基于注意力的特征融合块,一个特征融合块由模态内特征融合部分和跨模态特征融合部分两部分构成;模态内特征融合部分着重关注单模态内的特征融合,用于捕获当前模态下来自远近各段不同的信息,分别对近距离的特征相似信息和远距离的特征差异信息进行整合,来增强各个片段特征的表征能力;跨模态特征融合部分使用简单轻量的线性层对多模态特征进行融合,模态内特征融合部分与之结合使用,进一步挖掘伪造信息;C构建全局特征池化模块,结合注意力机制对音频模态和视频模态的各片段特征进行聚合,生成每个模态的全局特征表示;D构建分类模块,将各模态的全局表示和拼接而成的混合特征,分别经过FC层处理输出分类结果、、;E模型训练使用多任务学习的策略,将分类结果与标签对比计算模型损失,反向传播模型损失以训练模型; S3待检测说话人音视频预处理:处理方法与S1相同; S4使用训练完成的多模态鉴伪模型对待检测数据进行分析处理,得到待检测音视频的细粒度检测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励