中科方寸知微(南京)科技有限公司冷聪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中科方寸知微(南京)科技有限公司申请的专利基于变分自编码器改进熵模型的视频压缩方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119011851B 。
龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411481911.0,技术领域涉及:H04N19/192;该发明授权基于变分自编码器改进熵模型的视频压缩方法及系统是由冷聪;海雷;杨澄设计研发完成,并于2024-10-23向国家知识产权局提交的专利申请。
本基于变分自编码器改进熵模型的视频压缩方法及系统在说明书摘要公布了:本发明公开了一种基于变分自编码器改进熵模型的视频压缩方法及系统,此方法包括接收视频流中的当前帧数据,构建时空金字塔结构,生成多尺度持续图;将其与预设的传统视觉特征融合,得到时间上下文特征;提取超先验数据和潜在先验数据,拼接形成输入特征集;采用改进的分层条件变分自编码器,生成多层次潜在变量;计算在预定条件下的概率值,生成概率分布数据;进行上下文感知自适应量化,得到量化后的数据;进行动态熵编码优化,得到压缩数据包;执行率失真优化,得到优化后的压缩数据包;进行感知引导的解码重建,得到感知质量最优的重建视频帧。本发明减少了计算复杂度,使得本发明在保持高压缩效率的同时,更易于实现实时视频压缩。
本发明授权基于变分自编码器改进熵模型的视频压缩方法及系统在权利要求书中公布了:1.基于变分自编码器改进熵模型的视频压缩方法,其特征在于,包括如下步骤: S1、接收视频流中的当前帧数据,基于当前帧数据,构建时空金字塔结构;对时空金字塔结构应用持续同调算法,生成多尺度持续图;将多尺度持续图与预设的传统视觉特征融合,得到增强的时间上下文特征;基于当前帧数据,提取超先验数据和潜在先验数据,将时间上下文特征、超先验数据和潜在先验数据进行拼接,形成输入特征集; S2、基于输入特征集,采用改进的分层条件变分自编码器,生成多层次潜在变量;基于多层次潜在变量,采用代数几何方法,估计概率分布参数;基于概率分布参数,计算每个潜在变量在预定条件下的概率值,生成概率分布数据; S3、基于多层次潜在变量和概率分布数据,进行基于压缩感知理论的上下文感知自适应量化,得到量化后的数据; S4、基于量化后的数据,进行动态熵编码优化,得到压缩数据包;基于最终的压缩数据包,执行基于信息几何的率失真优化,得到优化后的压缩数据包; S5、基于优化后的压缩数据包,进行感知引导的解码重建,得到感知质量最优的重建视频帧; 步骤S1进一步为: S11、从视频输入设备或存储介质中读取原始视频数据流,提取当前时刻的视频帧数据,得到当前帧数据;将当前帧数据暂存在缓冲区中,并记录其时间戳信息;对缓冲区中的当前帧数据进行预处理,包括去噪、颜色空间转换和分辨率调整,得到预处理后的当前帧数据; S12、基于预处理后的当前帧数据,构建时空金字塔结构,时空金字塔结构的每一层级包含不同时间尺度和空间分辨率的数据;对每一层级的数据应用持续同调算法,计算得到拓扑特征;将拓扑特征进行汇总,生成多尺度持续图; S13、基于预处理后的当前帧数据,使用预训练的卷积神经网络,提取传统视觉特征;采用加权融合方式,将多尺度持续图和传统视觉特征结合,得到增强的时间上下文特征; S14、基于预处理后的当前帧数据,从预先训练好的神经网络模型中提取超先验数据;基于预存储的历史帧的编码结果,提取潜在先验数据;对超先验数据和潜在先验数据进行标准化处理,得到标准化的超先验数据和潜在先验数据;将标准化的超先验数据和潜在先验数据与增强的时间上下文特征进行拼接,形成完整的输入特征集; 步骤S2进一步为: S21、将输入特征集输入到编码器网络中,生成初始潜在变量;获取当前帧数据的条件信息,将条件信息与初始潜在变量结合,构建多层次潜在变量生成网络模型;其中条件信息包括场景类型和运动复杂度; S22、基于条件信息和初始潜在变量,采用自适应先验网络,动态调整多层次潜在变量生成网络模型中每一层的先验分布参数,得到调整后的多层次潜在变量生成网络模型;使用调整后的多层次潜在变量生成网络模型,逐层生成不同抽象级别的潜在变量;将所有层次的潜在变量组合,形成多层次潜在变量; S23、将多层次潜在变量映射到预定义的代数簇上,构建概率分布的几何结构表示;从预存储的数据缓存中获取最近N帧的编码结果作为观测数据,基于观测数据和几何结构表示,使用代数统计方法,估计代数簇上的参数;采用半代数集理论,利用预先设定的约束条件对代数簇上的参数的空间进行约束,得到约束后的参数;其中N为大于0的自然数; S24、基于约束后的参数,构建潜在变量的条件概率模型,计算每个潜在变量在预定条件下的概率值,生成概率分布数据; 步骤S3进一步为: S31、使用预训练的稀疏字典,将多层次潜在变量投影到稀疏域,得到稀疏域表示;基于当前帧数据的内容特征,从预设的量化矩阵库中选择量化矩阵;基于概率分布数据,采用上下文分析模块,动态调整量化矩阵的参数,得到调整后的量化参数; S32、基于稀疏域表示和调整后的量化参数,进行量化操作,得到量化后的离散值,即量化后的数据; S33、基于量化后的离散值,采用凸优化算法,重建原始数据;计算重建的原始数据与多层次潜在变量之间的感知质量差异,基于感知质量差异,对调整后的量化参数进行进一步微调,得到微调后的量化参数; 步骤S4进一步为: S41、从预存储的编码统计缓存中获取最近N个编码帧的统计特性,基于统计特性和量化后的数据,动态更新预配置的符号出现概率模型,得到更新后的符号出现概率模型; S42、基于更新后的符号出现概率模型,为每个符号分配最优的编码长度;基于编码长度和量化后的数据,采用上下文自适应算术编码算法,计算得到编码后的数据;基于编码后的数据,构建并优化可变长编码策略,得到优化后的编码数据;将优化后的编码数据按照预定义的格式组织成比特流,包括头信息和元数据,形成最终的压缩数据包; S43、基于最终的压缩数据包,构建统计流形,计算费舍尔信息矩阵;基于费舍尔信息矩阵,构建基于自然梯度的迭代优化算法,基于迭代优化算法的当前参数,评估当前参数配置下的率失真性能,直到达到预设的迭代次数;基于评估的结果,输出最优参数配置,得到优化后的压缩数据包; 步骤S5进一步为: S51、基于优化后的压缩数据包中的头信息和元数据,解析编码参数,并逆向执行步骤S4至步骤S2,得到初步重建的视频帧数据;使用预训练的感知质量评估模块,评估初步重建的视频帧数据的感知质量,得到评估结果; S52、基于评估结果,从预设的后处理技术库中自适应地选择和应用后处理技术,包括去块效应滤波和细节增强,对初步重建的视频帧数据进行处理,得到处理后的帧;将处理后的帧输入到预训练的对抗网络中,提升视觉质量,得到增强后的帧; S53、将增强后的帧与步骤S1中的当前帧数据进行比较,计算感知相似度;基于感知相似度,调整后处理参数;基于调整后的后处理参数,输出感知质量最优的重建视频帧。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科方寸知微(南京)科技有限公司,其通讯地址为:211135 江苏省南京市江宁区麒麟科技创新园创研路266号人工智能产业园3号楼203B室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。