当前位置 : 首页 > 专利喜报 > 扬州万方科技股份有限公司周思远获国家专利权

扬州万方科技股份有限公司周思远获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉扬州万方科技股份有限公司申请的专利一种搭载于无人机的多模态场景内容理解系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN118887590B 。

龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202411129202.6，技术领域涉及：G06V20/40；该发明授权一种搭载于无人机的多模态场景内容理解系统是由周思远;王桢;包敏;周春云设计研发完成，并于2024-08-16向国家知识产权局提交的专利申请。

本一种搭载于无人机的多模态场景内容理解系统在说明书摘要公布了：一种搭载于无人机的多模态场景内容理解系统，涉及深度学习和多模态内容理解领域。包括依次连接的信号采集单元、数据采样和处理单元、时空特征提取单元、双模态特征融合单元和场景内容分类单元，所述信号采集单元用于对音频数据和视频数据进行采集；所述数据采样和处理单元用于对音频数据进行处理形成频谱图以及对视频数据进行帧采样；所述时空特征提取单元用于对音频模态的连续频谱图提取特征以及对视频模态的连续帧提取时空特征；整个系统结合音频和视频完成场景内容的理解,相比于单模态或者单帧加逻辑的系统设计，本发明能够在单模态信息不足时依然能输出鲁棒的结论，并且凭借其帧间变化和动作特征提取能力可以理解更多动态场景内容类型。

本发明授权一种搭载于无人机的多模态场景内容理解系统在权利要求书中公布了：1.一种搭载于无人机的多模态场景内容理解系统，其特征在于，包括依次连接的信号采集单元、数据采样和处理单元、时空特征提取单元、双模态特征融合单元和场景内容分类单元，所述信号采集单元用于对音频数据和视频数据进行采集；音频数据使用两路麦克风采集两路音频信号，一路悬挂在无人机下远离机身位置，用于采集场景声音，减少无人机自身噪音的干扰，另一路固定在靠近机身下方位置，用于采集旋翼工作时发出的环境噪音；所述数据采样和处理单元用于对音频数据进行处理形成频谱图以及对视频数据进行帧采样；音频处理的实施方式如下：对场景声音和环境噪音采用相同的处理方式，首先按时间戳截取音频流，存储到本地，加载到内存后将音频重新采样为单声道音频，通过使用Hann时窗，按10ms帧移对音频进行短时傅里叶变换，再计算对数梅尔声谱；然后对特征进行无重叠组帧，堆叠出四维数组；环境噪音以同样的方式处理成相同维度的数组，在通道维拼接得到四维数组作为音频分支模型输入；所述时空特征提取单元用于对音频模态的连续频谱图提取特征以及对视频模态的连续帧提取时空特征；所述时空特征提取单元包括：音频模态和视频模态拥有独立的特征提取分支网络，每个特征提取的分支网络均是在卷积构成的通用分类或检测模型的主干网络的基础上，插入自适应时间域注意力模块，两个模态输出各自的一维特征向量，表征各自模态的连续输入在时间和空间维的全局和局部特征；自适应时间域注意力模块，包括时间维自适应局部特征提取子模块和时间维全局注意力子模块；自适应时间域注意力模块的输入复制成4份，一份用于时间维自适应局部特征提取子模块，三份用于时间维全局注意力子模块；时间维自适应局部特征提取子模块生成自适应的卷积核；时间维全局注意力子模块在其中一份输入的时间维提取注意力权重，并用乘法的方式将权重应用到第2份输入的相应时间维的所有元素上，再将结果与第3份输入按对应位置相加，作为时间维全局注意力子模块的输出；自适应时间域注意力模块的最后一部分是一个2D卷积，卷积的输入是时间维全局注意力子模块的输出，该卷积的卷积核是时间维自适应局部特征提取子模块的输出，该2D卷积的结果作为自适应时间域注意力模块的输出；时间维自适应局部特征提取子模块，输入是自适应时间域注意力模块的输入，输出为下一步卷积的卷积核；实现方式为，在每个通道中，先将空间维做全局池化，之后对时间维做卷积核大小为5的一维卷积，通过1维BatchNorm层和ReLU激活层，用于提取相邻时刻间的特征，再通过全连接层将维度减小到5，最后经过Sigmoid层调整数值范围，生成5*1的卷积核，作为后续2D卷积的权重，卷积核的数值来源于输入本身，不同的输入会生成不同的卷积核，实现模型权重对输入的自适应；时间维全局注意力子模块，通过对相邻时间的空间维特征图在做差，提取连续时间内的特征变化，捕捉目标或镜头的高维运动信息，实施方式为，被减数分支在时间维从t1到tn,减数分支多经过一个2D卷积层，再将t1移动到时间维的末尾，形成t2,t3,..,tn,t1的顺序，将两个分支的对应位置的特征图相减，获得空间维的差值特征图，经过全局池化和Softmax后，得到时间维的权重，该权重在空间维上广播复制后，与模块输入做乘积后再与输入相加并输出；所述双模态特征融合单元用于对时空特征提取单元提取的特征进行融合；所述场景内容分类单元用于对双模态特征融合单元的输出特征向量进行内容分类，得出特征向量对应的类别编号，映射为原音视频所归属的内容类别。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人扬州万方科技股份有限公司，其通讯地址为：225006 江苏省扬州市广陵产业园安林路96号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

扬州万方科技股份有限公司周思远获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务