漳州视瑞特光电科技股份有限公司邹世明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉漳州视瑞特光电科技股份有限公司申请的专利一种智能语音交互方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121459790B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610002902.1,技术领域涉及:G10L15/06;该发明授权一种智能语音交互方法及装置是由邹世明;林俊江;袁海伦设计研发完成,并于2026-01-05向国家知识产权局提交的专利申请。
本一种智能语音交互方法及装置在说明书摘要公布了:本发明公开一种智能语音交互方法及装置,应用于数据处理技术领域,本发明通过获取用户图像、语音、文本多模态原始数据,经特定模型与工具处理:以RetinaFace检测裁剪人脸后用ResNet‑50网络模型提取图像情绪特征,torchaudio库提语音MFCC特征,Sentence‑BERT中文模型提文本语义特征,生成三个标准化单模态特征数据。再经线性投影统一维度,结合跨模态注意力机制与Transformer编码器融合特征,输入情绪分类器得情绪识别结果。随后依Plutchik情绪轮理论,结合业务场景与角色约束匹配文本、语音双响应策略,生成多模态交互响应内容,最终结合智能硬件与循环监听实现持续交互,输出符合用户情绪与场景需求的智能交互结果。
本发明授权一种智能语音交互方法及装置在权利要求书中公布了:1.一种智能语音交互方法,其特征在于,包括: 获取用户图像、语音、文本多模态原始数据; 对图像数据通过RetinaFace模型检测并裁剪人脸,先执行BGR转RGB格式转换,再进行预处理,预处理过程包含归一化与张量转换,同时将图像调整为224×224RGB格式,随后经ResNet-50网络模型提取128维情绪特征;对16kHz采样率的语音数据,通过torchaudio库提取40维MFCC系数,提取过程中配置n_fft为400、hop_length为160、n_mels为128的参数,提取完成后再进行时间维度平均池化;对中文文本数据通过Sentence-BERT的paraphrase-multilingual-MiniLM-L12-v2模型提取768维语义嵌入向量,生成标准化的图像、语音、文本单模态特征数据; 对标准化的单模态特征数据进行处理,语音特征经专属线性投影层从40维精准转换至256维,转换过程中保留语音情绪相关的语调、能量信息,通过线性投影统一维度后,经跨模态注意力机制与Transformer编码器进行特征融合,输入情绪分类器预测情绪标签,生成用户情绪识别结果; 对用户情绪识别结果进行处理,以Plutchik情绪轮理论为依据,结合业务场景与角色约束,匹配对应的文本策略和语音策略,生成情绪适配的双响应策略,包括对用户情绪识别结果进行处理,以Plutchik情绪轮理论为依据,构建包含主导情绪、次要情绪、强度、极性及触发场景的结构化情绪向量,结合业务场景优先级矩阵与角色约束条件,生成情绪-场景-角色三方匹配结果;对三方匹配结果进行处理,调用多模态表达策略库,匹配对应情绪组合的文本策略和语音策略,文本策略明确DeepSeek提示词要求及生成参数,语音策略确定包括语速、语调、音量的语音特征参数;对匹配后的文本策略与语音策略进行处理,启动冲突消解机制,针对文本语音冲突执行强度衰减与补偿策略,针对情绪对立冲突采用情绪中和算法,生成情绪适配的双响应策略,其中,语音策略明确响应语音的基准音高、语速系数、音量大小及停顿规则,不同情绪对应差异化配置; 对情绪适配的双响应策略进行处理,生成多模态交互响应内容; 对多模态交互响应内容进行处理,结合智能硬件设备,通过循环监听机制实现持续交互,通过扬声器播放情感化语音,同时麦克风阵列持续采集用户后续语音反馈,实时转换为文本并监测情绪变化,生成符合用户情绪与场景需求的智能交互响应结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人漳州视瑞特光电科技股份有限公司,其通讯地址为:363000 福建省漳州市芗城区仙景路76号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励