北京生数科技有限公司请求不公布姓名获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京生数科技有限公司申请的专利多对象的视觉内容生成模型的训练方法、生成方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119784876B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411992015.0,技术领域涉及:G06T11/00;该发明授权多对象的视觉内容生成模型的训练方法、生成方法及装置是由请求不公布姓名设计研发完成,并于2024-12-31向国家知识产权局提交的专利申请。
本多对象的视觉内容生成模型的训练方法、生成方法及装置在说明书摘要公布了:本申请涉及一种多对象的视觉内容生成模型的训练方法、生成方法及装置。该训练方法包括:基于训练数据对,获取每个目标对象对应的第一局部视觉特征表示和局部文本特征表示;通过位置编码模块在每个目标对象中分别嵌入图像位置编码和文本位置编码,获得第二局部视觉特征表示和第二局部文本特征表示;将各目标对象的第二局部视觉特征表示及第二局部文本特征表示输入至交叉注意力模块及扩散模型,以使扩散模型根据交叉注意力模块输出的融合特征进行去噪;固定扩散模型的各层网络参数,迭代交叉注意力模块及位置编码模块的网络参数,获得训练好的视觉内容生成模型。本申请提供的方案,能够确保多对象生成场景中的视觉内容的一致性和控制精度。
本发明授权多对象的视觉内容生成模型的训练方法、生成方法及装置在权利要求书中公布了:1.一种多对象的视觉内容生成模型的训练方法,其特征在于,所述视觉内容生成模型包括待训练的位置编码模块、待训练的交叉注意力模块、及预训练的扩散模型;其中: 获取多组训练数据对,每组所述训练数据对包括训练图像及文本描述,所述训练图像包括至少两个目标对象,所述文本描述中包含每个目标对象的属性描述; 基于所述训练数据对,获取每个所述目标对象对应的第一局部视觉特征表示和第一局部文本特征表示; 通过所述位置编码模块在每个所述目标对象对应的所述第一局部视觉特征表示和第一局部文本特征表示中分别嵌入图像位置编码和文本位置编码,获得第二局部视觉特征表示和第二局部文本特征表示; 将各所述目标对象的所述第二局部视觉特征表示及所述第二局部文本特征表示,输入至所述交叉注意力模块及所述扩散模型,以使所述扩散模型根据交叉注意力模块输出的融合特征进行去噪,输出预测视觉内容;其中,所述扩散模型包括N层特征采样层;所述交叉注意力模块包括第一注意力网络及第二注意力网络;所述第一注意力网络用于根据第二局部文本特征表示及扩散模型输出的采样特征,输出对应的第一融合特征;所述第二注意力网络用于根据第二局部视觉特征表示及第一融合特征,输出第二融合特征,所述第二融合特征用于输入扩散模型进行特征采样;其中,所述扩散模型根据交叉注意力模块输出的融合特征进行去噪,输出预测视觉内容,包括:通过所述第一注意力网络对第二局部文本特征表示以及扩散模型的第k层的输出特征进行交叉注意力计算,得到第k个第一融合特征;其中,1≤k≤N,k和N均为自然数;通过所述第二注意力网络根据第一融合特征及第二局部视觉特征表示进行交叉注意力计算,得到第k个第二融合特征;其中,所述第k个第二融合特征用于输入所述扩散模型的第k+1层中,以获得第k+1层的输出特征;当k+1=N时,所述扩散模型获得当前时间步的输出特征,并根据最后一个时间步的输出特征生成预测视觉内容; 固定所述扩散模型的各层网络参数,并根据所述扩散模型的损失函数反向传播,迭代调整所述交叉注意力模块及位置编码模块的网络参数,以获得训练好的视觉内容生成模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京生数科技有限公司,其通讯地址为:100084 北京市海淀区中关村东路8号东升大厦C座三层301;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。