智子引擎(北京)科技有限公司赵一鸣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉智子引擎(北京)科技有限公司申请的专利一种基于扩散模型的视频生成方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119421011B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411492562.2,技术领域涉及:H04N21/81;该发明授权一种基于扩散模型的视频生成方法、装置、设备及介质是由赵一鸣;费楠益设计研发完成,并于2024-10-24向国家知识产权局提交的专利申请。
本一种基于扩散模型的视频生成方法、装置、设备及介质在说明书摘要公布了:本申请的实施例提供了一种基于扩散模型的视频生成方法、装置、设备及介质,涉及视频生成技术领域,首先将含有人脸的训练视频按照帧数拆分为多个视频帧,选取第一个包含人脸的视频帧作为条件图片,将多个视频帧输入变分自编码器并加入高斯噪声得到带噪特征表示,使用CLIP图片编码器对条件图片进行编码得到图片嵌入表示,将带噪特征表示和图片嵌入表示输入至去噪U‑Net进行拼接得到第一视频,将第一视频输入至扩散模型得到第二视频,通过将图片输入至扩散模型实现了从单一图片生成高质量、长时段视频的目标,并提高了人脸生成的自然度和视频动作的流畅性。
本发明授权一种基于扩散模型的视频生成方法、装置、设备及介质在权利要求书中公布了:1.一种基于扩散模型的视频生成方法,其特征在于,所述方法应用于扩散模型,所述扩散模型包括变分自编码器、CLIP图片编码器以及去噪U-Net,所述方法包括: 将含有人脸的训练视频按照帧数拆分为多个视频帧,选取第一个包含人脸的视频帧作为条件图片; 将多个视频帧输入变分自编码器进行编码得到隐空间特征表示; 将高斯噪声加入隐空间特征表示得到带噪特征表示; 使用CLIP图片编码器对条件图片进行编码得到图片嵌入表示; 将带噪特征表示和图片嵌入表示输入至去噪U-Net进行拼接得到第一视频,图片嵌入表示通过交叉注意力的形式输入至去噪U-Net中; 将第一视频输入变分自编码器进行编码并加入高斯噪声得到第二带噪特征表示; 使用CLIP图片编码器对第一视频中的多张条件图片进行编码得到第二图片嵌入表示,并将第二图片嵌入表示注入至去噪U-Net; 将第二带噪特征表示输入到去噪U-Net中生成去噪隐空间特征; 将去噪隐空间特征输入变分自编码器之后使用超分辨率模型进行分辨率提升得到第二视频,所述第二视频比第一视频的视频质量高。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人智子引擎(北京)科技有限公司,其通讯地址为:102300 北京市门头沟区莲石湖西路98号院13号楼2层201室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。