昆明理工大学郭军军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学申请的专利一种基于模态交互多任务学习的多模态情感分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117150358B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311117032.5,技术领域涉及:G06F18/241;该发明授权一种基于模态交互多任务学习的多模态情感分析方法是由郭军军;邓发;余正涛设计研发完成,并于2023-08-31向国家知识产权局提交的专利申请。
本一种基于模态交互多任务学习的多模态情感分析方法在说明书摘要公布了:本发明公开基于模态交互多任务学习的多模态情感分析方法,包括:从预处理后的视频数据中分别获取文本、语音、视觉单模态原始特征;从三种单模态原始特征中分别获取单模态特征表示;构造基于神经网络模型的多任务学习框架:多模态任务采用了一种经典的多模态情感分析架构,包含了特征表示模块,特征融合模块和输出模块三个模块,特征表示模块获取单模态特征后,将三种单模态特征表示进行拼接并投影到一个低维空间,最后用多模态融合的特征表示来进行预测多模态情感;子任务部分将之前得到的单模态特征表示投影到一个新的特征空间中,将文本模态与非文本模态交互,学习文本模态于非文本模态的信息,进而有效提升多模态任务的效果。
本发明授权一种基于模态交互多任务学习的多模态情感分析方法在权利要求书中公布了:1.一种基于模态交互多任务学习的多模态情感分析方法,其特征在于,包括下列步骤: S1、对视频进行预处理:从视频中得到相应文本;从视频中分离出音频,并对音频进行转录;对视频进行分帧处理、对视频帧进行人脸检测与对齐处理; S2、从预处理后的数据中获取单模态原始特征:利用预先训练的工具包提取出音频特征和视频特征; S3、基于单模态原始特征,进一步提取单模态特征表示,包含文本特征表示,音频特征表示,视频特征表示; S4、根据多模态数据以文本为主导模态的特点,构造基于神经网络模型的多任务学习框架; S5、多模态情感分析任务采用了一种经典的多模态情感分析架构,包含了特征表示模块,特征融合模块和输出模块三个模块,特征表示模块获取单模态特征后,将三种单模态特征表示进行拼接并投影到一个低维空间,最后用多模态融合的特征表示来进行预测多模态情感; S6、子任务部分将之前得到的单模态特征表示投影到一个新的特征空间中,将文本模态与非文本模态交互,学习文本模态与非文本模态的信息,进而有效提升多模态任务的结果; 所述S6的具体实现包括: 将之前得到的单模态特征表示投影到一个新的特征空间中; 在三种单模态特征表示的维度上增加一个额外的常数1: ft∈[Ft1]T fv∈[Fv1]T fa∈[Fa1]T 其中,ft、fv、fa为在投影的三种单模态特征表示的维度上增加一个额外的常数1的特征;Ft表示文本模态特征表示,Fa表示音频模态特征表示,Fv表示视频模态特征表示; 把文本模态特征ft分别与语音模态特征fa、视觉模态特征fv外积: 其中,表示外积操作,表示文本模态分别与视觉模态和音频模态外积后的结果; 外积融合后经过几个线性层以方便后面的学习过程: 其中,表示可学习的权重矩阵; 均表示偏移量; 所述基于模态交互多任务学习的多模态情感分析方法所对应的多模态情感分析模型的整体学习方法是通过将总损失函数结果最小化来实现的: l=ltask+2αlMSE 其中,α是子任务每个损失函数对总损失函数所占的权重,ltask表示多模态任务损失,lMSE表示文本模态Zt与两融合模态Ztv、Zta之间的损失函数,公式如下: 其中,N为训练样本的数量,表示第i个批次的多模态情感真实结果,为第i个批次的多模态情感预测结果,k∈tv,ta,表示第i个批次的融合模态Ztv和Zta,表示第i个批次的文本模态。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励