Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)王常维获国家专利权

山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)王常维获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)申请的专利大型视觉语言模型幻觉减轻方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120781883B

龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511172128.0,技术领域涉及:G06N3/0455;该发明授权大型视觉语言模型幻觉减轻方法及装置是由王常维;解骥烨;傅科学;彭凯;史伟天;高龙翔;曲悠扬;庞为光设计研发完成,并于2025-08-21向国家知识产权局提交的专利申请。

大型视觉语言模型幻觉减轻方法及装置在说明书摘要公布了:本发明属于人工智能与多模态大模型的技术领域,具体涉及大型视觉语言模型幻觉减轻方法及装置。所述方法包括:获取原始图像的完整视觉令牌及文本提示的文本令牌,将其连接共同输入大语言模型解码器;基于跨模态动态采样策略计算文本令牌与所有视觉令牌的注意力分数矩阵,以采样关键视觉令牌;获取原始图像的分类令牌,基于分类令牌和完整视觉令牌中各视觉令牌的注意力得分,以筛选显著视觉令牌;对显著视觉令牌和关键视觉令牌进行自适应注意力增强,通过对比解码策略,从视觉信息增强的logits分布中减去纯文本输入的logits分布影响,以获得最终的目标文本输出。本发明旨在减轻大型视觉语言模型中的幻觉问题。

本发明授权大型视觉语言模型幻觉减轻方法及装置在权利要求书中公布了:1.一种大型视觉语言模型幻觉减轻方法,其特征在于,所述方法包括: S1、获取原始图像的完整视觉令牌,以及获取文本提示的文本令牌,并将所述完整视觉令牌和文本令牌连接共同输入大语言模型的解码器; S2、在大语言模型的解码器中,基于跨模态动态采样策略计算文本令牌与所有视觉令牌的注意力分数矩阵,以采样与文本令牌提示最相关的个关键视觉令牌; 其中,所述S2具体包括: S21、通过注意力机制计算文本令牌与视觉令牌的注意力分数矩阵: 3; 4; 式3-4中:将文本令牌视为查询,用表示;将视觉令牌视作键,用表示;为大型语言模型解码器的第层;表示第i层的查询权重;表示第i层的键权重;表示第i层的文本令牌的隐藏层向量;表示第i层的视觉令牌的隐藏层向量;表示大语言模型的特征维度;表示矩阵转置操作;注意力分数矩阵,其中,表示多头注意力机制中的头部数量,表示视觉令牌的数量,表示文本令牌的数量; S22、计算视觉令牌的重要性分数: ,5; 式5中:表示大型语言模型解码器的第层中所有视觉令牌的重要性分数,即先对注意力分数矩阵的H个注意力头做reduce-max操作,再计算第累加到第的分数的平均,j表示文本提示token的索引; S23、选择重要性分数最高的个视觉令牌进行采样,作为关键视觉令牌,具体包括: 对大型语言模型解码器的第层中所有视觉令牌的重要性分数按降序排序,得到,其中,表示大型语言模型解码器的第层中第个视觉令牌的重要性分数; 选择累积重要性超过预定义重要性阈值的关键视觉令牌,关键视觉令牌的数量的计算如下: 6; 式6中:表示预定义重要性阈值;表示所有视觉令牌中关键视觉令牌的数量,其中为正整数且表示使整个求和表达式大于阈值的最小,并将其赋予表示视觉令牌重要性分数的索引; 根据重要性分数排序,对排名靠前的个视觉令牌进行采样,作为关键视觉令牌,且所选关键视觉令牌与文本令牌提示直接相关; S3、获取原始图像的分类令牌,并基于所述分类令牌和完整视觉令牌中各视觉令牌的注意力得分,筛选分值最高的前的视觉令牌作为显著视觉令牌; 其中,所述注意力得分的计算如下: 式7中:表示分类令牌的查询;表示视觉令牌的键;表示视觉编码器的特征维度; S4、对所述显著视觉令牌和关键视觉令牌进行自适应注意力增强: 8; 式8中:表示视觉令牌注意力分数;表示基本增强因子;表示为防止过度增强引入的缩放因子;表示函数;n表示最新的生成的文本token,表示视觉令牌;表示显著视觉令牌和关键视觉令牌的交集,即,其中,为显著视觉令牌,为关键视觉令牌;表示显著视觉令牌或关键视觉令牌中的一种,即;表示未被选中为显著视觉令牌和关键视觉令牌的其它视觉令牌; S5、通过对比解码策略,从视觉信息增强的logits分布中减去纯文本输入的logits分布影响,以抑制语言先验导致的幻觉,获得最终的目标文本输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院),其通讯地址为:250000 山东省济南市历下区经十路东首科学院路19号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。