江苏昆仑互联科技有限公司周必华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏昆仑互联科技有限公司申请的专利一种多模态大模型驱动的工业场景明烟明火图像生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118038202B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410067841.8,技术领域涉及:G06V10/774;该发明授权一种多模态大模型驱动的工业场景明烟明火图像生成方法是由周必华;潘涛;蔡鸿斌;徐鑫荣设计研发完成,并于2024-01-17向国家知识产权局提交的专利申请。
本一种多模态大模型驱动的工业场景明烟明火图像生成方法在说明书摘要公布了:本发明提供一种多模态大模型驱动的工业场景明烟明火图像生成方法,在工业环境中,由于获取真实场景中的火灾图像困难,传统的检测方法受到数据稀缺性的限制。为应对这一挑战,我们引入了大模型图像生成方法,通过多模态训练数据集的生成和多模态大模型的训练,实现了对明烟明火图像的高效生成。在技术方案中,我们结合了GPT‑3、StableDiffusion、Prompt‑to‑Prompt和Classifier‑free等多种深度学习技术,充分利用大模型的学习能力和生成能力。首先,通过GPT‑3生成了编辑指令和编辑后的图像描述,然后利用StableDiffusion和Prompt‑to‑Prompt技术生成具有多样性的图像编辑数据集。接着,通过Classifier‑free等技巧训练多模态大模型,将文本指令和图像特征融合,生成高质量的编辑后图像,从而提高火灾检测系统的性能。
本发明授权一种多模态大模型驱动的工业场景明烟明火图像生成方法在权利要求书中公布了:1.一种多模态大模型驱动的工业场景明烟明火图像生成方法,其特征在于:所述方法具体步骤如下: S1:制作训练数据; 使用经过微调的GPT-3对编辑前的图像描述生成编辑指令和编辑后的图像描述;将StableDiffusion与Prompt-to-Prompt结合使用,根据成对的图像描述生成成对的图像;最后通过这一过程生成了训练数据,并创建了训练数据集;所述成对的图像包括编辑前的图像和编辑后的图像; S2:训练多模态大模型; 基于步骤S1中生成的训练数据,训练一个多模态大模型,且该多模态大模型根据编辑指令直接编辑图像; 训练一个多模态大模型具体步骤如下: S21:提取图像特征; 针对编辑前后的图像,首先通过变分自编码器VAE进行图像特征的提取;将图像信息转换为模型可理解和处理的形式; 编辑前的图像通过变分自编码器VAE提取得到编辑前的图像特征; 编辑后的图像通过变分自编码器VAE提取得到编辑后的图像特征; S22:提取文本特征; 对于编辑指令中相应的的文本指令,同样使用文本编码器进行特征提取;把文本指令映射成潜在空间中的特征向量,捕捉文本描述的语义信息;最后将文本信息也被转化为模型可处理的向量表示; S23:多模态大模型; 将经过步骤S21的VAE和步骤S22的文本编码器处理后的编辑前的图像特征和文本特征同时输入到多模态大模型中;通过在第一个卷积层增加拼接文本特征和图像特征的通道,多模态大模型被设计成能够理解和融合这两种不同类型的特征,产生一个高维度的语义特征表示; S24:计算损失; 模型的输出图像特征与编辑后的图像特征进行比较,通过计算损失来衡量它们之间的差异; S3:图像生成; 基于步骤S2中训练的多模态大模型,生成工业场景下明烟明火图像生成,将模型进行本地化部署。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏昆仑互联科技有限公司,其通讯地址为:224051 江苏省盐城市亭湖区环保大道创投中心D座(28);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。