Document
拖动滑块完成拼图
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本公开实施例提供了一种语音唤醒方法、装置、电子设备以及存储介质。该方法包括:确定目标设备获取的第一语音信号,所述第一语音信号中支持携带用于对所述目标设备或与目标设备相关联的目标应用进行唤醒的预设唤醒关键词;对所述第一语音信号进行语音幅度调整...
  • 本申请实施例公开了一种页面操作的语音控制方法、装置、电子设备及介质。该方法包括:对用户的控制语音进行识别,并对识别出的文字进行解析得到目标操作指令;确定与所述目标操作指令对应的目标操作事件,并从目标页面的元素中查找所述目标操作事件对应的候选...
  • 本申请实施例应用于语音识别技术领域,提供了一种音频处理方法、模型训练方法及电子设备。在采集原始音频数据的过程中,电子设备按照预设时间长度,将该原始音频数据进行划分,得到多个候选音频数据块。之后,针对每个候选音频数据块,电子设备从候选音频数据...
  • 本发明提供一种语音识别方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,采用的目标自动语音识别模型通过当前文本前缀序列生成上下文语义表征,并将上下文语义表征与当前文本前缀序列以及声学特征结合,通过自回归方式逐步预测得到目标文本序列。...
  • 本申请提供一种语义识别方法、装置、电子设备及存储介质,涉及视频处理技术领域,包括:获取目标特征数据,目标特征数据至少包括图像特征数据和音频特征数据;基于目标特征数据,构建超图结构,超图结构包括与目标特征数据中不同时间段下的数据分别对应的多条...
  • 本发明属于语音识别技术领域,更具体地,涉及一种针对交通运输执法行业术语的语音识别方法。该方法包括以下步骤:步骤1、收集执法语音信号,构建交通运输执法语音语料库;步骤2、基于Transformer的端到端模型构建;步骤3、优化Transfor...
  • 本申请提出一种语音识别方法、语音识别模型、装置及存储介质,该语音识别方法包括:获取待识别的语音波形;将语音波形的特征向量输入至路由网络,以使路由网络从多个语音识别网络中筛选出与特征向量对应的至少一个目标语音识别网络;将语音波形的特征向量分别...
  • 本申请公开了用于物流的供应商语音交流辅助分析系统及方法,属于语音交流辅助领域,本申请基于智能坐席自动接听通话,获取语音通话过程中的语音信号采集,构建噪声处理模型,将原始语音信号导入噪声处理模型中评估噪声情况,去除驾驶员语音以外的噪声,构建语...
  • 本申请公开了一种具有自主学习与生成能力的交互方法、装置和系统,属于人工智能技术领域。方法包括:获取多模态数据;多模态数据至少包括与制冷设备相关联的内部数据和与制冷设备交互的外部数据;基于多模态数据对预训练语言模型进行微调,得到微调后的预训练...
  • 本申请涉及一种基于标记与回溯校正的音频识别方法和装置,方法包括:对目标音频进行切分,其中,切分后的相邻切片之间具有部分重叠区域;若目标音频的非静音段中存在切片点,且切片点前后预设数量帧的声学特征相似度小于设定相似度阈值,则标记切片点为截断风...
  • 本发明提供一种角色分离方法、装置、设备及存储介质,涉及人工智能技术领域,其中方法包括:确定待分离的音频数据的音频转折点,并根据音频转折点对待分离的音频数据分割,得到至少两个音频段;对于每个音频段,获取音频段对应的第一声纹特征及第一转录文本特...
  • 本申请提供处理车辆数据的方法及车辆,涉及车辆数据处理领域。在原始音频信号中包含敏感词时,车辆不将原始音频信号上传云端服务器,而是车辆对原始音频信号进行语音识别,得到语音文本,这能够将数据处理过程从风险更高的云端服务器转移至相对可控的车辆本地...
  • 本说明书提供了一种特征提取方法、模型训练方法、设备、存储介质及程序产品。获取待提取特征的语音数据;利用预先训练的特征提取模型的编码模块对所述语音数据进行编码处理,得到所述语音数据的声学特征,其中,所述声学特征通过连续的潜变量表征;利用所述特...
  • 本发明提供了一种基于大模型的语音生成方法、系统及存储介质,该方法包括:对样本文本进行特征提取,得到嵌入向量;将嵌入向量输入大模型进行语音预测,得到样本语音词元序列,根据样本语音词元序列生成样本生成语音;根据样本生成语音确定样本语音文本,根据...
  • 本说明书实施例涉及计算机技术领域,提供了任务处理方法、音频生成模型训练方法及文本处理方法,其中,任务处理方法包括:确定待处理任务数据和目标声纹特征;对所述待处理任务数据进行语义解码,获得音频离散特征;根据所述音频离散特征和所述目标声纹特征,...
  • 本发明提供了基于解耦多模态提示和链式引导的可控文本转语音方法,所述方法包括:构建统一的多模态风格编码器,用于将来自参考音频或描述性文本的风格提示映射到共享的嵌入空间,以生成风格条件嵌入,并对多模态风格编码器训练;构建基于潜在扩散变换器的文本...
  • 本发明公开了一种支付音箱自定义语音播报方法、装置、设备及存储介质,所述方法通过接收商户提交的语音定制需求,将语音定制需求发送至云端,通过云端根据语音定制需求生成语料文件并存储;通过云端根据语音定制需求配置播报组合策略,实时推送与语料文件和播...
  • 一种唇语转语音的方法、装置、计算机存储介质及终端,本公开实施例针对在终端设备上无法部署唇语到语音转换技术且存在语音质量无法满足应用要求的问题,将轻量化且确保语音质量的双向门控循环单元,与降低计算复杂度和资源需求的神经声码器相结合,在减少系统...
  • 本发明提供了一种基于预训练嵌入与标签控制的多情感语音合成方法,涉及语音合成技术领域。通过联合建模情感嵌入与文本特征,实现文本与声学特征的有效对齐,并利用双向归一化流与去噪潜空间扩散模型生成高质量频谱特征,最终经HIFIGAN解码合成语音波形...
  • 本申请公开了一种语音合成方法、装置、电子设备及存储介质,属于计算机技术领域。所述方法包括:获取目标文本;从所述目标文本中提取文本特征;根据所述文本特征,并基于声学模型,得到所述目标文本对应的声学特征;所述声学模型根据训练数据和目标损失函数进...
技术分类