Document
拖动滑块完成拼图
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本公开提供了一种语音识别方法、模型训练方法、装置、电子设备以及介质,涉及人工智能技术领域,尤其涉及大模型、语音识别和自然语言处理领域。具体实现方案为:将待处理音频的音频特征、目标文本的文本特征和待处理音频的语义特征进行语义融合,得到目标融合...
  • 本发明公开了一种模型部署方法、装置、电子设备及计算机程序产品。该方法包括:获取模型部署设备支持的模型训练参数;依据模型训练参数,在预设语音模型的语音增强流式神经网络中截取语音子模型,语音增强流式神经网络中每个残差模块至少包括:可伸缩线性层、...
  • 本发明提供一种语音识别纠错方法及装置,涉及数据处理技术领域,包括:将待识别用户音频中的当前音频帧输入语音识别模型,得到当前音频帧的声学特征和第一文本字符;将当前音频帧的声学特征和第一文本字符,以及历史修正文本序列,输入语音识别纠错模型,得到...
  • 本申请涉及一种嵌入式语音系统中私有语义模型的训练与部署方法,该方法包括对语义模型训练数据进行语义复杂度分析,确定对应的语义模型结构和训练参数配置;基于语义模型结构和训练参数配置执行语义识别模型训练操作,生成初始语义识别模型,并对初始语义识别...
  • 本申请涉及语音信号处理技术领域。本申请公开了一种基于声音事件的人体活动的识别方法、装置、终端及存储介质,其能够减少对人工标注数据的依赖,降低人工标记的成本,同时,提高人体活动模型识别人体活动的准确度。所述基于声音事件的人体活动的识别方法包括...
  • 本发明公开了一种语音识别标注方法及装置,属于语音识别技术领域,该方法为:将待处理语音分离为多个单声道语音;对于每一单声道语音,基于各语音帧的音量幅度计算平均音量能量,并结合预设阈限确定动态能量阈值;基于动态能量阈值,分别计算单声道语音所有语...
  • 本申请公开了一种交互方法、装置、设备及存储介质,用于提升交互效率。本申请采集用户输入的音频流;采用语音识别技术对音频流进行语音识别处理,得到文本信息;采用预先训练好的流式指令模型确定文本信息是否为流式指令;若确定文本信息为流式指令,则对文本...
  • 本申请提供一种语音识别准确率评估统计方法,包括:采集当前水下深度、氦氧混合气体密度、原始语音波形、呼吸阻力,分析得到波形变化振幅和气体密度变化幅度,识别原始语音波形中的主频率成分;将修正后的语音波形与氦氧混合气体密度、呼吸阻力结合评估发声气...
  • 本发明实施例涉及车辆测试技术领域,公开了一种车载语音测试方法、装置、设备及存储介质,该方法包括:基于预设人工智能模型,将测试用例中的测试步骤转换为预设数据格式的结构化测试步骤数据,测试用例包含以自然语言描述的测试步骤;基于结构化测试步骤数据...
  • 本发明公开了一种基于厨卫环境智能家电的语音交互测试方法、设备及介质,该方法包括:获取原始环境声学特性数据;根据原始环境声学特性数据进行环境声学模型构建,得到环境声学模型;基于环境声学模型调整测试机器人的测试参数,以使测试机器人与待测语音交互...
  • 本发明涉及文语合成技术领域,公开一种智能机器人文字播音朗读审核校对系统及方法,该系统包括一个前馈合成通路与一个回溯验证通路,回溯验证通路并行地从前馈通路生成的音频波形中逆向分析出回溯音素序列和韵律偏离度,系统通过一个一致性仲裁模块,依据音素...
  • 本申请公开了一种基于情感响应的声音克隆方法,包括:获取输入文本并生成情感向量;依据情感向量获取参考声音片段以计算声学情感强度;融合声学情感强度、文本信息及基于依存句法分析的情感关键词句法结构权重,生成精炼的情感强度指标;基于该指标调整声学参...
  • 本发明公开了一种基于神经网络转换器的语音合成方法及其装置、电子设备,涉及音频合成领域或其他相关技术领域,其中,该方法包括:将语音输入文本输入至编码器,通过编码器进行文本转换,输出文本表示,使用嵌入转换器将预设参考音频转化为讲话人嵌入变量,嵌...
  • 本申请实施例提供一种个性化语音合成方法、电子设备、服务器和存储介质,该方法包括:在开启语音合成功能的情况下,获取电子设备中需要进行语音合成的文字信息,以及获取用户对应的音频特征,用户对应的音频特征为根据用户进行语音合成功能注册时所录入的语音...
  • 本发明提供一种语音合成、声学模型训练方法、电子设备和存储介质,方法包括:获取语义特征,以及初始化时间步和输入特征;将语义特征、时间步和输入特征输入声学模型,得到声学模型输出的估计声学特征,更新时间步,以及基于估计声学特征更新输入特征,将语义...
  • 本申请公开了一种语音合成方法及相关装置,涉及语音合成技术领域,包括:获取待合成文本、用于定制目标发音人的主模态人设特征数据和辅模态人设特征数据,将各模态人设特征数据映射到多模态共享的语义嵌入空间,得到主模态对齐特征和辅模态对齐特征,并对其进...
  • 本申请提供一种语音合成方法、装置、处理器及存储介质,属于语音合成领域,方法包括:构建多音字映射词典;其中,所述多音字映射词典用于表示多音字及其每一发音所对应的非多音字之间的映射;响应于接收到待合成语音文本,识别待合成语音文本中的多音字,并基...
  • 本申请属于人工智能技术领域,涉及一种基于人工智能的数据预测方法、装置、计算机设备及存储介质,包括:获取输入的语音波形,以及与语音波形匹配的文本数据;对语音波形进行声学特征提取得到声学特征,以及对文本数据进行文本特征处理得到文本特征;对声学特...
  • 本申请公开了一种语音合成方法及相关装置,所述方法包括:确定待合成文本中发音需要调整的字,得到多个目标词;检测到所述多个目标词中存在同音同字的多音字,则将所述多个目标词划分为重复词和非重复词;根据所述多个目标词中每个目标词的搭配对象和句式功能...
  • 本发明公开了一种基于多智能体动态调度的可控语音生成方法和装置,属于语音合成技术领域,包括:构建包括中央调度模块、身份智能体、情感智能体和环境智能体的多智能体语音生成框架;通过中央调度模块解析用户指令并输出结构化任务计划,以驱动各智能体分别生...
技术分类