深圳市灵图闪创科技有限公司邹凯峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市灵图闪创科技有限公司申请的专利一种主题图像生成方法及基于大语言模型的代理框架获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120163903B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510636068.7,技术领域涉及:G06T11/60;该发明授权一种主题图像生成方法及基于大语言模型的代理框架是由邹凯峰;黄子舟;鄢镇嘉;冯潇轶;黄涛;邹鋆弢;李大刚;尹威武;邓敏辉;何玲芳设计研发完成,并于2025-05-16向国家知识产权局提交的专利申请。
本一种主题图像生成方法及基于大语言模型的代理框架在说明书摘要公布了:本申请公开了一种主题图像生成方法及基于大语言模型的代理框架。方法包括:在大语言模型中,将与主题相关的关键信息扩展为提示信息;在预训练的文本到图像模型中,基于提示信息和关键信息,生成包含三个颜色通道的候选图像;通过注意力机制提取候选图像中主要元素对应的注意力图;计算注意力图在时间步t、注意力层l下的交叉熵;根据交叉熵,对总时间步T、预训练的文本到图像模型的总注意力层L的注意力图进行加权融合;将融合后的注意力图作为指导信息,预测主题图像的掩模,并进行前景分割,分离出带有透明度通道的主题图像。本申请实现熵基加权融合技术在图像生成的应用,能够有效去除不需要的元素,分离出的主题图像具有更高的精度和质量。
本发明授权一种主题图像生成方法及基于大语言模型的代理框架在权利要求书中公布了:1.一种主题图像生成方法,其特征在于,包括: 在大语言模型中,将与主题相关的关键信息扩展为提示信息; 在预训练的文本到图像模型中,基于所述提示信息和所述关键信息,生成包含三个颜色通道的候选图像; 在所述预训练的文本到图像模型中,通过注意力机制提取所述候选图像中主要元素对应的注意力图; 对所述注意力图进行采样操作,并基于时间步t、文本标记、所述文本标记的长度及所述预训练的文本到图像模型的注意力层l,计算所述注意力图在所述时间步t、注意力层l下的交叉熵; 根据所述交叉熵,对总时间步T、所述预训练的文本到图像模型的总注意力层L的注意力图进行加权融合; 将融合后的注意力图作为指导信息,预测主题图像的掩模,并进行前景分割,分离出带有透明度通道的主题图像; 其中,所述在大语言模型中,将与主题相关的关键信息扩展为提示信息,包括: 在大语言模型接收用户输入的与主题相关的关键信息; 对所述大语言模型微调,以将所述关键信息扩展为提示信息,并从所述提示信息中提取与所述关键信息关联的所述主要元素; 所述主题图像生成方法还包括: 将所述融合后的注意力图进行归一化处理,并计算所述融合后的注意力图的各个区域的概率值; 在所述融合后的注意力图中,将概率值大于第一阈值的区域划分为确定前景区域,将概率值位于第二阈值到所述第一阈值之间的区域划分为可能前景区域,将概率值位于所述第二阈值到第三阈值之间的区域划分为可能背景区域,将概率值小于所述第三阈值的区域划分为确定背景区域,获得四值图; 其中,所述第三阈值小于第二阈值,所述第二阈值小于所述第一阈值; 所述将融合后的注意力图作为指导信息,预测主题图像的掩模,并进行前景分割,分离出带有透明度通道的主题图像,包括: 将所述四值图和所述候选图像作为GrabCut算法的输入,对所述候选图像进行前景分割,生成最终掩模; 利用所述最终掩模,生成带有透明度通道的主题图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市灵图闪创科技有限公司,其通讯地址为:518000 广东省深圳市南山区西丽街道松坪山社区朗山路11号同方信息港F栋0602;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。