东北大学张克勤获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种面向多模态的幽默识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119863742B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510021534.0,技术领域涉及:G06V20/40;该发明授权一种面向多模态的幽默识别方法是由张克勤;邓丹;杨浩宇;赵雄雄;李婧;韩东红设计研发完成,并于2025-01-07向国家知识产权局提交的专利申请。
本一种面向多模态的幽默识别方法在说明书摘要公布了:本发明提供了一种面向多模态的幽默识别方法,涉及多模态幽默识别技术领域,在一种实现方式中,本发明将引入的外部知识作为单独模态,并与文本、音频和视频模态进行融合。先通过全连接层进行维度对齐,再将其拼接输入到Transformer中学习四种模态之间的交互关系,同时借助交叉注意力机制对模态融合进行了优化,由此解决了外部知识引入和模态融合方案的问题。在另一种实现方式中,通过图注意力网络进行数据增强,来弥补当前数据集数量稀缺的问题,将相关模态进行融合拼接,然后送入到交叉注意力网络中,再通过多头自注意力层进一步融合,最后输入到最大池层获得融合向量的单一特征表示,得到幽默极性的预测概率分布,由此得到更加有效的模态融合。
本发明授权一种面向多模态的幽默识别方法在权利要求书中公布了:1.一种面向多模态的幽默识别方法,其特征在于,包括: 步骤1:获取多个输入视频数据,所述输入视频数据包括输入文本、人脸图像和音频信息; 步骤2:针对步骤1中的每个输入视频数据,对输入文本进行分词和向量嵌入,得到最终的文本向量,将最终的文本向量嵌入表示输入到ALBERT模型中,得到文本模态特征Ut; 步骤3:针对步骤1中的每个输入视频数据,通过仿射变换技术对人脸图像进行对齐和校准,得到对齐后的人脸图像;将对齐后的人脸图像中的人脸部分裁出,得到第一图像,将第一图像输入到深度卷积神经网络CNN中,得到人脸特征向量,对人脸特征向量进行L2归一化,得到归一化后的人脸特征向量,在归一化后的人脸特征向量中,选取动作单元和脸型参数特征作为最终的人脸图像特征fv; 步骤4:针对步骤1中的所述音频信息,在音频信息中提取音高信息,通过COVAREP对音高信息进行提取,得到多个音高特征,通过SPS软件对多个音高特征进行处理,得到降维后的音频特征fa; 步骤5:针对步骤1中的每个输入视频数据,将输入文本分别提取上下文的幽默特征和笑点的幽默特征,进而根据幽默特征、文本模态特征Ut、最终的人脸图像特征fv和音频特征fa,得到视觉模态特征Uv、音频模态特征Ua和幽默模态特征Uf; 步骤6:对文本模态特征Ut、视觉模态特征Uv、音频模态特征Ua和幽默模态特征Uf进行处理,得到表征幽默极性的预测概率分布P,具体通过步骤A或步骤B实现: 步骤A:将文本模态特征Ut、视觉模态特征Uv、音频模态特征Ua和幽默模态特征Uf输入线性层,得到最终的文本模态特征U′t、最终的视觉模态特征U′v、最终的音频模态特征U′a和最终的幽默模态特征U′f,对最终的文本模态特征U′t、最终的视觉模态特征U′v、最终的音频模态特征U′a和最终的幽默模态特征U′f进行拼接,将拼接后的结果通过多头自注意力机制和全连接层进行处理,得到表征输入视频数据的幽默极性的预测概率分布P; 步骤B:通过图注意力网络对文本模态特征Ut、视觉模态特征Uv、音频模态特征Ua和幽默模态特征Uf进行更新,将更新后的特征通过交叉注意力机制、线性变换、多头交叉注意力机制和多头自注意力层,得到表征输入视频数据的幽默极性的预测概率分布P; 步骤7:将预测概率分布P作为预测值,并获取输入视频数据对应的表征幽默极性的真实值,根据预测值和真实值,计算损失函数值,具体通过以下公式实现: 其中,BinaryCrossEntropy为损失函数值,N为输入视频数据的个数,yi为第i个输入视频数据的真实值,y′i为第i个输入视频数据的预测值; 通过损失函数值,对嵌入向量矩阵、深度卷积神经网络CNN、Transformer编码器、线性层参数W1和b1以及全连接层的参数W2和b2进行更新,直到损失函数值小于预设阈值,此时输出的预测概率分布P为输入视频数据的幽默极性预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路3号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。