四川农业大学刘敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉四川农业大学申请的专利基于深度学习与联邦学习的多模态儿童嗓音数据处理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120470245B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510955059.4,技术领域涉及:G06F18/15;该发明授权基于深度学习与联邦学习的多模态儿童嗓音数据处理方法是由刘敏;李军设计研发完成,并于2025-07-11向国家知识产权局提交的专利申请。
本基于深度学习与联邦学习的多模态儿童嗓音数据处理方法在说明书摘要公布了:本发明涉及儿童嗓音数据处理领域,具体涉及一种基于深度学习与联邦学习的多模态儿童嗓音数据处理方法。方案包括:采集儿童的喉镜图像和发声音频数据,预处理之后通过DLE模块提取喉镜图像中的局部特征,采用GSA模块提取喉镜图像中的全局特征,采用MSFE模块进行喉镜图像的局部特征与全局特征融合,得到喉镜图像的最终融合特征,再通过AMFN模块从预处理后的梅尔频谱图中提取音频数据的局部特征与全局特征,并进行局部特征与全局特征的融合;之后对VisionTransformer分类器模型进行训练,在训练过程中,结合联邦学习框架确保多中心医疗数据的隐私保护和分布式建模能力。本发明适用于儿童嗓音数据分类。
本发明授权基于深度学习与联邦学习的多模态儿童嗓音数据处理方法在权利要求书中公布了:1.基于深度学习与联邦学习的多模态儿童嗓音数据处理方法,其特征在于,包括: S1、采集儿童嗓音疾病相关的喉镜图像数据,以及对应儿童的发声音频数据; S2、对采集的喉镜图像和发声音频数据进行预处理; S3、对预处理后的喉镜图像与音频数据进行模态特征提取与融合; 对预处理后的喉镜图像进行模态特征提取具体包括: 采用DLE模块提取喉镜图像中的局部特征,将预处理后的喉镜图像输入DLE模块,通过DLE模块输出喉镜图像的局部特征; 所述DLE模块包括浅层密集卷积堆叠单元、空洞卷积路径、边缘强化分支与残差连接机制; 所述浅层密集卷积堆叠单元为主干路径,包含3个连续的3×3卷积层,每层输出通道为64,每一层的输入为前面所有层输出的级联; 第一卷积层:卷积核大小3×3,输入通道数3,输出通道数64,步幅1,Padding=1,激活函数为ReLU,Padding=1表示在输入特征图的四周各填充1圈像素; 第二卷积层:卷积核大小3×3,输入为第一卷积层输出与输入图像的拼接结果,输出通道数64,激活函数为ReLU; 第三卷积层:卷积核大小3×3,输入为第一卷积层输出、第二卷积层输出和输入图像的拼接,输出通道数64,激活函数为ReLU; 所述空洞卷积路径为第一分支路径,包含在主干路径中插入2层带空洞率为2或4的3×3卷积层; 第一空洞卷积层:卷积核大小3×3,空洞率=2,通道数64,激活函数ReLU; 第二空洞卷积层:卷积核大小3×3,空洞率=4,通道数64,激活函数ReLU; 所述边缘强化分支为第二分支路径,包含边缘特征卷积层; 边缘检测操作:对输入图像进行Sobel算子处理,得到边缘响应图; 边缘特征卷积层:卷积核大小1×1,输出通道数64,激活函数ReLU; 所述残差连接机制为将原始输入或前一模块输出通过1×1卷积后加回主通道; 对预处理后的音频数据进行模态特征提取与融合具体包括: 采用AMFN模块从预处理后的梅尔频谱图中提取音频数据的局部特征与全局特征,并进行局部特征与全局特征的融合; 所述AMFN模块包含MSFE-A模块、TCM模块以及LGA模块; 通过MSFE-A模块提取音频数据的局部特征,将音频数据的梅尔频谱图输入MSFE-A模块,通过MSFE-A模块的多个并行卷积分支分别提取不同频率感受野下的音频特征,包含卷积核大小为3×7的低频卷积分支、卷积核大小为5×5的中频卷积分支以及卷积核大小为7×3的高频卷积分支,各分支输出特征图在通道维度上进行拼接,并通过1×1卷积进行融合,得到音频数据的局部特征图; 通过TCM模块提取音频数据的全局特征图,将音频数据的局部特征图输入TCM模块,通过TCM模块捕捉音频信号中的长距离时间依赖特征,通过对频谱图在频率维度进行平均池化,再采用一维时间卷积结合门控机制生成对应的注意力权重图,将注意力权重图与局部特征图进行相乘,得到音频数据的全局特征图; 通过LGA模块对局部特征图与全局特征图进行融合,将MSFE-A模块和TCM模块的输出进行通道维度拼接,并引入通道注意力机制与频率选择门控机制,对融合后的特征图进行通道压缩和频谱重要性加权,形成最终融合的音频模态特征; S4、对提取的喉镜图像模态特征与音频数据模态特征进行对齐; S5、基于联邦学习,通过对齐后的喉镜图像模态特征与音频数据模态特征对分类器模型进行训练; S6、通过训练好的分类器模型对儿童嗓音数据进行分类识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川农业大学,其通讯地址为:625000 四川省雅安市雨城区新康路46号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。