Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学诸葛云志获国家专利权

大连理工大学诸葛云志获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学申请的专利一种基于语义一致性的开放词汇视听分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120822079B

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511311730.8,技术领域涉及:G06F18/24;该发明授权一种基于语义一致性的开放词汇视听分割方法是由诸葛云志;朱梦圆;张璐;龚思同;卢湖川设计研发完成,并于2025-09-15向国家知识产权局提交的专利申请。

一种基于语义一致性的开放词汇视听分割方法在说明书摘要公布了:本发明属于人工智能与多模态信息处理技术领域,公开一种基于语义一致性的开放词汇视听分割方法。通过设计音频语义增强模块显式增强音频语义辨别能力,提升模型跨模态对齐与语义识别准确度,增强了视听语义分割的鲁棒性与精度。提出对称式跨模态注意力引导模块和层级模态融合解码器。通过精细化的跨模态交互与多模态解码,充分挖掘视听信息中的时空语义,促进视听特征在空间与时间维度上聚集,确保发声物体的精确定位与分类。通过联合使用CLIP与CLAP,并基于共享的真实标签对齐视听特征,本发明不仅增强了已知类别发声物体的分割性能,还通过预训练基础模型的知识,显著提升未知类别的分割与分类能力以及模型在开放词汇场景下的泛化能力。

本发明授权一种基于语义一致性的开放词汇视听分割方法在权利要求书中公布了:1.一种基于语义一致性的开放词汇视听分割方法,其特征在于,具体如下: 1对称式跨模态注意力引导模块,其具体实现步骤为: 对于CLAP音频编码器编码的音频特征和CLIP图像编码器编码的多尺度视觉特征,首先将多尺度视觉特征通过卷积投影到统一的特征维度,再沿空间维度展开并合并为多尺度特征,得到;同时音频特征通过多层感知器映射到相同的特征维度,记为;再使用跨模态注意力机制融合和,得到融合后的多模态特征,记为表示: ; 其中,表示逐行归一化的激活函数,表示可学习的投影矩阵; 为充分捕捉复杂的视听关联,设计两层跨模态交互层,分别以视觉特征和音频特征为查询,均以融合后的多模态特征作为键或值,通过跨模态注意力机制将中的融合信息选择性注入视觉特征和音频特征,分别得到增强后的视觉特征和音频特征,引导增强后的视觉特征和音频特征更准确地关注发声物体;对应的计算公式如下: ; ; 其中,和分别表示增强后的视觉特征和音频特征;、均为可学习的投影矩阵; 随后,被输入到基于多尺度可变形注意力的像素解码器中进行多尺度特征交互,输出更精确的视觉特征,记作; 2层级模态融合解码器,其具体实现步骤为: 首先对输入的增强后的音频特征进行时序展开,并通过自注意力机制和时序上下文关联优化音频特征,得到时序增强的音频特征,记作;然后,一组用可学习参数初始化的目标查询通过跨模态注意力与时序增强的音频特征交互,得到嵌入音频线索的初始目标查询; 层级模态融合解码器包括三个解码层,在每个解码层中,目标查询与像素解码器输出的视觉特征进行跨模态注意力交互,提取与发声线索对应的物体的视觉信息,得到更新后的目标查询: ; 其中,;表示来自上一层解码层输出的目标查询,当解码层是第一层时,表示跨模态注意力机制; 随后,对更新后的目标查询进一步与音频特征交互,得到集成音频信息的目标查询: ; 接着,通过在时空维度上对集成音频信息的目标查询执行自注意力计算,显式建模目标查询的跨帧关联,从而进一步增强目标查询的时序一致性: ; 其中,表示自注意力机制;表示将形状为张量展开为形状的目标查询,目标查询的数量,表示通道维度;表示将上述展开操作的结果恢复至原始形状的逆向操作;最终,进行时序一致性增强的目标查询经过前馈网络处理,输出融合视听信息的目标查询,记作; 3音频语义增强模块,其具体实现步骤为: 首先目标查询与时序增强的音频特征通过跨模态注意力进行交互,使每个目标查询选择性地聚集相关的音频信息,并显式地融合音频语义;随后对注意力输出施加残差连接,并通过多层感知机进一步整合得到融合特征;而对类别采用CLAP文本提示模板“Thissoundcontainsthe{}”,经CLAP文本编码器得到文本嵌入;最后,融合特征和文本嵌入通过点积计算相似度,获得最终的音频语义分类结果;上述过程表示为: ; ; 音频语义增强模块引入一个辅助音频监督的语义分类损失;损失公式表示为: ; 其中,表示交叉熵损失计算,表示音频所对应的真实类别标签; 4模型掩码生成和总体损失计算,其具体步骤为: 为了实现开放词汇视听语义分割,使用一个基于CLIP的分类头和一个掩码头进行视听语义分割;掩码头中,目标查询首先经多层感知机处理后,与像素级解码器输出的最高分辨率视觉特征记作掩码特征通过矩阵乘积运算生成对应的分割掩码预测;基于CLIP的分类头中,分割掩码预测与掩码特征通过掩码池化得到掩码池化特征,再与目标查询进行残差连接,经过多层感知器处理得到类别特征;同时,文本嵌入通过对类别采用CLIP文本提示模板“Aphotoof{}”经CLIP文本编码器生成;最后,类别特征与文本嵌入通过点积进行相似度计算,生成相应的类别预测; 训练过程中同时考虑语义分类损失和预测掩码损失;其中,语义分类损失包括两部分:一是来自分类头的基于CLIP的主分类损失,二是由音频语义增强模块引入的基于CLAP的辅助音频监督分类损失;总损失如下所示: ;; 其中,掩码损失函数由对预测掩码和真实掩码进行焦点和Diceloss计算得到;、、分别表示加权参数,即总损失函数; 推理阶段,利用掩码头生成的分割预测掩码,通过掩码池化与利用冻结的CLIP文本编码器编码的包含未知类别的文本嵌入进行相似度计算,获得另一组语义分类预测;其中,分类头输出的负责已知类别分类识别,侧重于未知类别的识别;随后,和通过几何集成的方式融合,生成兼具已知类别判别能力和开放词汇泛化能力的最终语义类别预测;最后,结合该语义类别预测与预测掩码,生成视听语义分割掩码。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。