武汉大学叶茫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利一种基于文本指令引导的可控图像生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120543698B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510615268.4,技术领域涉及:G06T11/60;该发明授权一种基于文本指令引导的可控图像生成方法及系统是由叶茫;杨德淞;董煜然设计研发完成,并于2025-05-14向国家知识产权局提交的专利申请。
本一种基于文本指令引导的可控图像生成方法及系统在说明书摘要公布了:本发明公开了一种基于文本指令引导的可控图像生成方法及系统,通过结合多模态大语言模型MLLM与扩散模型的优势,有效兼顾了用户友好性与编辑性能。具体而言,本发明通过利用BLIP和微调后的GPT解析用户指令,优化空文本嵌入调整反演噪声轨迹,交叉注意力与自注意力注入控制——实现了自然语言指令驱动的可控生成。本发明能有效协同多模态大语言模型与扩散模型,在背景保真度与文本对齐度等指标上均展现了卓越性能。本发明为提升图像可控生成的用户友好性与生成质量提供了新思路,进一步推动了多模态生成技术在数字媒体等领域的应用。
本发明授权一种基于文本指令引导的可控图像生成方法及系统在权利要求书中公布了:1.一种基于文本指令引导的可控图像生成方法,其特征在于,包括以下步骤: 步骤1:给定输入图像,使用多模态模型标注图像,获取源图像文本描述P;结合用户输入编辑指令,利用大语言模型输出三元组类型编辑信息,其包括目标图像描述、编辑任务类型与局部编辑对象;其中局部编辑对象是一个二元组,分别包含源图像和目标图像描述中的对象; 步骤2:使用噪声和无条件嵌入来编辑真实的输入图像;其中,采用无分类器指导中权重进行DDIM反演得到一个中枢噪声轨迹,其终点为;为时间步; 步骤3:同时对源图像文本描述P和目标图像描述执行迭代扩散过程,其中根据所需的编辑任务类型在每个步骤中应用基于注意力的操作,包括自注意力图控制和交叉注意力图控制,输出编辑后的图像; 其中,所述交叉注意力图控制,是固定内部随机性,首先在每个步骤中对噪声向量和分别执行采样计算得到注意力图和;然后将两者输入编辑函数得到;使用替换后再次对采样计算得到;最后根据自动生成的掩码进一步优化局部编辑区域采样;经过个步骤后得到,解码后输出编辑后的图像; 通过特定对象的交叉注意力图来近似生成被编辑部分的掩码,约束修改仅在该局部区域应用;为计算时间步处的掩码,首先分别计算原词的平均注意力图和新词的平均注意力图,其中表示在步上平均;随后应用阈值处理生成二值化掩码,其中k为阈值;取最终掩码为两个二值化掩码的并集;最后使用该掩码约束编辑区域,混合噪声向量和得到最终的,表示逐元素乘法。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励