Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本发明公开了一种基于大数据的语音控制优化方法及系统,方法包括语音数据获取、构建语音识别模型、语音识别模型训练和语音智能控制。本发明涉及语音数据处理技术领域,具体为一种基于大数据的语音控制优化方法及系统,本方案创新性地采用三通道并行卷积结构,...
  • 本申请涉及一种语音识别控制方法及装置、智能设备与介质,所述方法包括:响应于语音交互事件,根据对应的语音数据流确定用户身份;根据用户身份对应的语音习惯画像,设定语音识别引擎中的语音处理流程中多个环节的运行参数,语音习惯画像包含基于用户身份历史...
  • 本公开提出了一种通话可视化模型生成和通话可视化处理方法、装置,包括:响应于通话可视化请求,获取当前通话已生成的通话数据和初始DENN模型,并基于通话数据生成结构化文本数据;进行语义分析,以生成语义特征数据;对语义特征数据进行处理,以生成多头...
  • 本申请公开了一种文本处理方法、装置、相关设备及计算机程序产品,通过采用目标语种的三种不同数据组成的数据集,按照LoRA微调方式训练模型,得到三个数据集各自对应的三个低秩适应模型,第一数据集采用真实语音‑文本对数据,第二数据集与第一数据集中文...
  • 本发明提供的模型训练及语音识别方法、装置、电子设备、存储介质,属于人工智能技术领域,迭代执行以下训练步骤:确定有监督损失、无监督损失及参数距离损失以联合更新待训练模型及第二编码器的网络参数;无监督损失是利用待训练模型的第一编码器生成的第一音...
  • 本发明涉及语音识别技术领域,公开了音素识别模型的训练方法、音素识别方法及装置,本发明由于通过第一音素识别模型识别正常语音数据对应的第一样本音素序列,第二音素识别模型识别构音障碍语音数据对应的第二样本音素序列,将第二样本音素序列作为无固定文本...
  • 本发明公开了一种会议纪要生成方法、系统、设备、介质和产品,通过采集会议过程中的发言信息和材料播放信息;根据所述发言信息和所述材料播放信息,计算并融合发言战略主旨特征和材料战略主旨特征,得到会议战略主旨;对用户提供的会议纪要模板进行识别,得到...
  • 本申请公开了一种语音大模型系统及相关方法、装置、设备和介质,其中语音大模型系统包括:基础设施层、数据层、算法模型层、能力层,基础设施层,包括计算设备、存储设备和网络设备,用于为语音大模型的训练、推理提供所需的底层资源;数据层,包括语音大模型...
  • 本发明公开了一种语音表征模型训练方法、装置、设备、存储介质和产品,在对语音表征模型进行训练时,首先编码得到的语音特征,利用这一语音特征进行token边界预测,生成token边界,然后根据token边界生成预测文本数据,并对预测文本数据进行离...
  • 本申请属于语音识别领域,公开一种语音信号中命令词的识别方法及相关设备,可以提高命令词识别的准确率。该方法包括:将目标连续语音信号输入语音识别模型,以得到音素序列路径集合以及所述音素序列路径集合中每个音素序列路径所对应的路径得分;若所述音素序...
  • 本申请提供了一种语音唤醒方法、电子设备、计算机存储介质,语音唤醒方法包括:获取语音帧序列中唤醒标志帧的唤醒置信度;基于唤醒置信度确定是否唤醒成功;其中,语音帧序列的语音帧的唤醒置信度由语音帧的拼音置信度、能量置信度计算得到。本申请能够有效降...
  • 本申请提供了一种语音唤醒方法、电子设备、计算机存储介质,语音唤醒方法包括:获取语音帧序列中唤醒标志帧的唤醒置信度;获取预设阈值组中的最大阈值;响应于唤醒置信度大于或等于最大阈值,唤醒成功;响应于唤醒置信度小于最大阈值,基于唤醒置信度、预设阈...
  • 本发明涉及语音识别技术领域,具体涉及一种学习机待机关键词识别方法及系统,方法包括:将音频信号经多通道二阶带通滤波分解为不同频带,通道输出整流获得包络信号;在预定帧长内对包络信号积分累加并取平均能量作为模拟特征,经模数转换得到按帧数字特征序列...
  • 本公开涉及一种用于语音增强的方法、训练神经网络模型的方法、用于语音增强的装置、电子设备及计算机可读存储介质。本公开基于编码向量和解码辅助向量来编码向量进行解码,其中,解码辅助向量融合有指示语音增强任务类型的任务提示信息和能够在信号级别实现语...
  • 本发明公开了一种基于语音识别的多语种全语音处理方法、设备及介质,涉及语音识别技术领域,包括,基于多语种语音特征集,计算语种显式轨迹,并通过历史会话中的语种偏好信息与语音片段进行关联构建语种隐式轨迹,整合生成语种权重轨迹;将语种权重轨迹划分为...
  • 本发明公开了基于Transformer自注意力机制的多方言语音识别方法,属于语音识别技术领域,该方法包括:获取多方言音频数据集并进行预处理和特征提取;利用方言拓扑空间映射模块构建方言特征的拓扑空间表示;将拓扑映射特征输入Transforme...
  • 本发明公开了一种韵律表现力语音合成方法,该方法设计了以改进VQVAE和改进UNet扩散网络为核心构建的韵律编码网络,以及对去噪扩散概率模型进行改进的去噪扩散概率模型(称为HarmoVDiff),使用了文本编码器、持续时间预测器、VAE编码器...
  • 本申请提出的语音合成方法、语音合成装置、电子设备及存储介质,涉及人工智能技术领域,适用于金融领域及医疗领域。该方法包括:获取目标文本,并确定目标文本所属的目标语言;获取样本语音集和属于目标语言的样本文本;通过初始语义建模器对样本文本和目标语...
  • 本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品,属于人工智能技术领域。该方法包括:对文本单元序列进行分块处理,得到N个文本块;文本单元序列基于文本信息编码得到,每个文本块包括P个文本单元和L个占位符,N、P、L为正整数;针对每...
  • 本申请涉及一种语音播报方法及装置、智能设备与介质,所述方法包括:根据当前智能设备确定的待播报文本生成音素控制数据,其中包括待播报文本相对应的音素序列;将音素控制数据输入语音合成模型,由其中预设的声学模型以非自回归的并行处理方式,生成对应的梅...
技术分类