广西大学杨慧珊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广西大学申请的专利一种多方言的语音文本转换系统及处理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119673147B 。
龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411899044.2,技术领域涉及:G10L15/00;该发明授权一种多方言的语音文本转换系统及处理方法是由杨慧珊;谢伟;韦焕干;李菲;黄颖宁;黄继斌;黄奕琳;梁媛佳设计研发完成,并于2024-12-23向国家知识产权局提交的专利申请。
本一种多方言的语音文本转换系统及处理方法在说明书摘要公布了:本发明涉及语言识别技术领域,具体为一种多方言的语音文本转换系统及处理方法,包括:音频采集模块:负责采集用户的语音输入,支持PCM、MP3、WAV格式和16kHz、44.1kHz采样率;方言检测模块:利用预训练语言分类器识别语音输入的方言类型;语音特征提取模块:将语音信号转化为特征表示,如梅尔频谱、MFCC;多方言语音识别模块:基于多任务学习的语音识别模型,将特征映射为文本序列;文本后处理模块:根据语言规则和语境优化识别结果,输出最终的标准化文本。多方言支持:覆盖主要方言语种,并可通过迁移学习快速扩展至新方言。
本发明授权一种多方言的语音文本转换系统及处理方法在权利要求书中公布了:1.一种多方言的语音文本转换系统的处理方法,其特征在于:包括如下步骤:步骤1:音频采集与预处理: a.音频采集:通过麦克风实时录音,采样率设置为16kHz,位深为16位; b.预处理: 去噪处理:通过低通滤波器去除环境噪声; 归一化:将音频幅值标准化至[‑1,1]; 分帧与加窗:将音频信号分帧,每帧长度为25ms,帧移为10ms,并加汉明窗; 步骤2:方言检测: 方言分类模型: 训练基于卷积神经网络和长短期记忆网络的分类模型; 输入:梅尔频谱图或MFCC特征; 输出:方言类别,包括粤语、四川话和普通话; 公式:Py|x=softmaxW·fx+b其中:Py|x为方言分类概率,W为分类器权重,fx为特征提取后的隐层表示; 方言检测包括领域自适应优化,采用自适应学习机制,对系统实时统计方言词汇的出现频率,动态更新语言模型的优先级,词频调整公式: 其中:P′w:调整后的词汇概率,Pw:原始词汇概率,countw:词汇的出现频次; 步骤3:语音特征提取: 提取音频特征,包括梅尔频谱图或MFCC:其中:X[k]第k个频带的能量,n为MFCC特征维度; 步骤4:多方言语音识别模型结构: 基于端到端的深度学习模型,包括Transformer和CTC+Attention结合架构; 输入:特征序列; 输出:文本序列; 公式:其中:Y为输出文本序列,X为输入特征序列,Pyt|y1:t‑1,X为时间步t的输出概率; 步骤5:文本后处理利用语言模型优化识别文本的连贯性: 语言模型使用双向LSTM或GPT预训练模型; 上下文校正:根据前后语境修正歧义字词; 步骤6:模型训练与优化多任务学习: 方言识别和语音识别联合训练,通过共享底层特征提高模型泛化能力; 迁移学习: 利用已有方言模型初始化新方言模型权重,减少训练成本; 优化目标: 使用交叉熵损失函数:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广西大学,其通讯地址为:530004 广西壮族自治区南宁市西乡塘区大学东路100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励