Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中山丰旭电子实业有限公司黄毅龙获国家专利权

中山丰旭电子实业有限公司黄毅龙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中山丰旭电子实业有限公司申请的专利一种基于多模态视听融合的麦克风语音识别系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120340463B

龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510521530.9,技术领域涉及:G10L15/02;该发明授权一种基于多模态视听融合的麦克风语音识别系统及方法是由黄毅龙;伍子垣设计研发完成,并于2025-04-24向国家知识产权局提交的专利申请。

一种基于多模态视听融合的麦克风语音识别系统及方法在说明书摘要公布了:本发明公开了一种基于多模态视听融合的麦克风语音识别系统及方法,属于人工智能和语音交互技术领域;首先,音频模块通过麦克风采集语音信号,借助云端语音识别API将语音转为文本,进一步使用Word2Vec将词语映射为300维语义向量。视觉模块提取唇动与log‑Mel频谱特征,唇部图像经Dlib检测与归一化处理后,送入3DCNN与密集时空CNN提取时空特征,辅以空间注意力机制突出关键区域,最终经双向GRU提取序列视觉特征。同时,将音频信号生成log‑Mel频谱图,通过Mel滤波和对数处理增强感知特性。音频词向量、唇动特征和log‑Mel特征拼接为多模态融合向量,送入CTC解码器,通过BeamSearch解码预测文本。训练过程中使用Adam优化器与小批量训练策略,提升模型性能与泛化能力。

本发明授权一种基于多模态视听融合的麦克风语音识别系统及方法在权利要求书中公布了:1.一种基于多模态视听融合的麦克风语音识别方法,其特征在于,所述方法包括: 步骤S1:通过麦克风实时采集语音信号,并将其发送至云端语音识别API,转换为文本词序列;接着,利用预训练的Word2Vec模型将每个词映射为300维的词向量,如果词识别失败,使用零向量进行填充,多个词的词向量通过平均池化或全连接层压缩,最终生成一维音频语义特征向量; 步骤S2:首先,使用Dlib定位人脸和唇部区域,并对唇部进行关键点对齐和归一化处理,生成唇动图像序列;图像序列输入至3D CNN和密集时空CNN,以提取唇动视觉特征,并通过空间注意力机制聚焦唇部关键区域,最后通过双向GRU提取时序特征;同时,将语音信号转换为log‑Mel频谱图,以增强音频的感知特性,生成log‑Mel频谱特征;所述步骤S2包括: S201:唇动图像预处理:使用Dlib线性分类器定位人脸,提取人脸及唇部区域,生成唇部序列图像;根据关键点对齐唇部区域,消除头部姿态变化的影响,对每帧图像进行通道归一化,减少光照变化干扰,标准化图像数据,训练时对序列图像进行水平翻转,提升模型泛化能力; S202:log‑Mel频谱图生成,将3秒语音信号按25ms窗口分帧,步长10ms,共生成750帧频谱图;通过Mel三角滤波器对每帧频谱进行滤波,将线性频率转换为Mel刻度,增强语音的感知特性;对Mel频谱能量取对数,得到log‑Mel频谱图,增强高频与低频特征区分度; S203:构建视觉特征提取网络,包括: 3D CNN模块,3D CNN在2D CNN基础上增加了三维卷积核参数,使得连续帧中的特征图既能与前一层的连续帧关联,又能被整合为单帧,最终实现运动信息的提取;处理唇动序列图像,通过3D卷积核提取时空特征,结合批量归一化、ReLU激活与3D最大池化层,输出初始特征图; 其中,为三维卷积核在位置p,q,r的权重参数; 其中,为前一层的输入特征; 密集时空CNN模块:采用密集短连接结构,通过短路径连接缓解梯度消失,降低参数量,提升了训练效率,具体包括: 密集块:每块包含6层BN→ReLU→3D卷积结构,层间特征图通过拼接传递,增强特征复用; 过渡块:包含BN→ReLU→3D卷积→3D平均池化,压缩通道数并降低特征图尺寸,减少计算量; 空间注意力模块:通过平均池化与最大池化层聚合通道信息,生成空间注意力权重图,原始特征图与注意力图逐元素相乘,突出唇部关键区域,计算公式如下: MSF=σf7×7[AvgFoolF;MaxPoolF]: 其中σ为Sigmoid函数,f7×7为7×7卷积操作; 双向GRU模块:处理时序特征,通过更新门与重置门控制信息流,捕获长时序依赖,输出的隐藏状态拼接后形成统一的视觉时序特征向量,作为视觉模块的最终输出,用于后续多模态特征融合; 步骤S3:将音频语义特征向量、唇动视觉特征和log‑Mel频谱特征拼接成融合特征向量,送入CTC解码器进行解码,并结合Beam Search算法输出最终文本;训练过程中采用Adam优化器与小批量训练策略,以提升模型的准确率与泛化能力。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山丰旭电子实业有限公司,其通讯地址为:528425 广东省中山市东凤镇和泰村同吉160号D栋6-10层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。