清华大学深圳国际研究生院李秀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学深圳国际研究生院申请的专利用于图像质量和美学评价的统一视觉语言模型预训练和调整方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118607611B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410609130.9,技术领域涉及:G06N3/0895;该发明授权用于图像质量和美学评价的统一视觉语言模型预训练和调整方法是由李秀;周涵涛设计研发完成,并于2024-05-16向国家知识产权局提交的专利申请。
本用于图像质量和美学评价的统一视觉语言模型预训练和调整方法在说明书摘要公布了:一种用于图像质量和美学评价的统一视觉语言模型预训练和调整方法,包括以下步骤:a.使用多模态大语言模型MLLM为用于图像质量和美学评估任务的训练图像生成与图像质量和美学相关的文本描述,得到图像‑文本描述数据集;b.采用数据净化策略,通过美学相关性和信息丰富度排名AIR筛选和优化图像‑文本描述数据集;c.在得到的图像‑文本数据集上进行统一视觉语言模型UniQA的预训练,通过对比学习策略最大化成对图像和文本特征的相似度,同时最小化不匹配图像和文本的相似度;d.通过轻量级适配器调整预训练好的UniQA模型的视觉特征,以适应特定的图像评估任务。本发明对图像评估提供了一种高效、准确且适应性强的解决方案,具有广泛的应用前景和实际价值。
本发明授权用于图像质量和美学评价的统一视觉语言模型预训练和调整方法在权利要求书中公布了:1.一种用于图像质量和美学评价的统一视觉语言模型预训练和调整方法,其特征在于,包括以下步骤: a.使用多模态大语言模型MLLM为用于图像质量和美学评估任务的训练图像生成与图像质量和美学相关的文本描述,得到图像-文本描述数据集; b.采用数据净化策略,通过美学相关性和信息丰富度排名AIR筛选和优化所述图像-文本描述数据集; 步骤b中,通过计算美学相关性排名AR和信息丰富度排名IR,生成美学相关性和信息丰富度排名AIR,并利用AIR来筛选出与图像美学紧密相关的文本,以构建优化后的数据集; c.在步骤b筛选和优化得到的图像-文本数据集上进行统一视觉语言模型UniQA的预训练,通过对比学习策略最大化成对图像和文本特征的相似度,同时最小化不匹配图像和文本的相似度; 步骤c具体包括: 使用CLIP模型在大规模图像-文本数据集上进行训练; 通过对比学习策略最大化成对图像和文本特征的余弦相似度; 使用温度参数τ和对比学习损失来训练模型,以生成对齐的特征表示;其中使用温度参数τ来调整图像和文本特征间相似度计算的敏感度; d.通过轻量级适配器调整预训练好的UniQA模型的视觉特征,以适应特定的图像评估任务; 步骤d中,所述轻量级适配器包括构成UniQA模型的骨干网络的图像编码器和文本编码器,用于提取图像的视觉特征和文本的语义特征; 其中,在预训练的图像编码器后添加可学习的残差模块,以调整视觉特征适应特定评估数据集;其中,所述残差模块包括两个带有ReLU激活函数的全连接层,通过归一化和残差连接调整图像的视觉特征,同时保持图像和文本骨干网络冻结,仅优化所述残差模块; 其中,使用提示模板“{level}image”和预定义的文本等级,构建多个提示组,计算每个提示组的归一化文本特征与调整后的视觉特征之间的余弦相似度,利用Softmax函数获得图像-文本对应关系的相关值,并将相关值加权预定义的递增值评分等级,得到最终的评估分数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学深圳国际研究生院,其通讯地址为:518000 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励