Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学技术大学先进技术研究院;合肥涌现智能科技有限公司;中国科学技术大学徐正春获国家专利权

中国科学技术大学先进技术研究院;合肥涌现智能科技有限公司;中国科学技术大学徐正春获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学技术大学先进技术研究院;合肥涌现智能科技有限公司;中国科学技术大学申请的专利基于生成式人工智能的音视频联合编码、解码方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119583873B

龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411787828.6,技术领域涉及:H04N21/439;该发明授权基于生成式人工智能的音视频联合编码、解码方法和系统是由徐正春;许道礼;陈志波;黄瑞丰;向国强;沙克成;管健设计研发完成,并于2024-12-06向国家知识产权局提交的专利申请。

基于生成式人工智能的音视频联合编码、解码方法和系统在说明书摘要公布了:本发明公开一种基于生成式人工智能的音视频联合编码、解码方法,编码包括:从音频信号和视频中提取各种模态特征;在跨模态注意力中进行融合;任务识别,首先识别当前的任务类型,确定了任务类型,系统将分析该任务的具体需求;动态自适应权重分配;融合特征,将分配了不同权重的多模态特征进行融合。本发明的优点在于:将音视特征提取、视频特征提取和基于AI的生成技术,首次应用在对音视频的联合编码中,解决了传统方法在进行视频的编解码的时候,压缩效率低以及不能应对更高质量的追求的问题。同时,基于生成式的编解码方式,可以灵活根据用户的个人需求,进行风格和质量的调整。

本发明授权基于生成式人工智能的音视频联合编码、解码方法和系统在权利要求书中公布了:1.一种基于生成式人工智能的音视频编解码方法,其特征在于:包括以下步骤: 音频特征提取; 视频特征提取; 音视频联合编码,包括以下步骤: S9、从音频信号和视频信号中提取各种模态特征; S10、在跨模态注意力中进行融合,包括: S101、首先,将提取出来的视频特征输入进跨模态注意力; S102、将视频特征经过辅助的残差辅助网络输入到跨模态注意力中,通过跨模态注意力机制到不同模态的特征进行分析; S103、音频特征的跨模态注意力机制和S101和S102相同;将不同模态的特征和通过跨模态注意力的输出结果进行连接; S11、任务识别,首先识别当前的任务类型,确定了任务类型,系统将分析该任务的具体需求; S12、动态自适应权重分配,具体包括: S121、特征重要性评估:根据任务需求,系统对音频和视频特征的重要性进行评估,通过计算各特征在当前任务中的贡献度,确定每种特征的重要性权重; S122、权重调整策略:系统根据特征重要性评估结果,动态调整音频和视频特征的权重; S123、自适应权重分配:系统在每个任务执行过程中,实时监控任务的进展和特征的表现,动态调整权重分配; S124、模态数据丢失处理:在某一模态的数据丢失或不存在的情况下,系统利用现有模态的数据生成缺失模态的数据; S13、融合特征,将分配了不同权重的多模态特征进行融合; 音视频联合解码,包括: S15、特征解码与预处理 接收端首先需要将通过音视频联合编码处理后从发送端传输过来的多模态特征进行预处理,预处理步骤包括:归一化、去噪、插值以及特征对齐与同步,特征对齐包括时间对齐和空间对齐,然后将经过预处理的多模态特征进行解码; S16、联合解码 将步骤S15解码出来的音频和视频的多模态特征输入到联合解码模块中,该联合解码通过AI驱动的多模态深度学习模型处理解码后的音频和视频特征,这个模块结合音频和视频生成模块,通过特征融合和深度网络生成最终的多模态内容:视频生成模块:基于深度学习的编码器-解码器架构,用于从视频特征生成视频帧,该模块通过Transformer编码器来从输入特征中提取视频的关键特征,音频生成模块:采用AI的音色编码器来提取并融合加权后的多模态特征和原始音频的音色特征,融合后的特征通过自回归Transformer转换为语义令牌序列,逐步生成具有高一致性和清晰度的音频内容,最终音频通过AI合成算法HiFNet,确保生成的音频符合预期的音质和语义; S17、合并音视频,使用AI驱动的同步技术确保音视频在时间轴上对齐; S18、客观评价:AI生成内容评价模型用于对音视频质量进行评估,评估指标包括:峰值信噪比,峰值信噪比值越高,表示生成视频的质量越好;结构相似性指数,结构相似性指数值越接近1,表示生成视频的结构与参考视频越相似;音频质量评估:使用感知语音质量评估或语音传输指数指标评估生成音频的质量,如果客观评价结果合格,则直接输出视频,如果不合格,则进入权重调整模块,动态调整多模态特征的权重分配,直到生成合格的视频; S19、动态调整,包括: S191、权重调整模块:根据客观评价结果,调整音频和视频特征的权重分配,AI模型使用梯度下降或遗传算法动态调整权重; S192、重新生成内容:在每次权重调整后,新的多模态特征通过联合解码模块重新生成音视频内容,AI模型再次评估输出质量,直到符合预期标准。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学先进技术研究院;合肥涌现智能科技有限公司;中国科学技术大学,其通讯地址为:230000 安徽省合肥市高新区望江西路5089号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。