Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民大学邓良昊获国家专利权

中国人民大学邓良昊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民大学申请的专利一种基于多模态文档的检索增强生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119988542B

龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411867298.6,技术领域涉及:G06F16/3329;该发明授权一种基于多模态文档的检索增强生成方法是由邓良昊;宋睿华;孙宇冲设计研发完成,并于2024-12-18向国家知识产权局提交的专利申请。

一种基于多模态文档的检索增强生成方法在说明书摘要公布了:本发明公开了一种基于多模态文档的检索增强生成方法,该方法包括如下步骤:S1、数据构造;S2、多模态知识检索器的特征抽取;S3、多模态知识检索器的特征映射;S4、多模态知识检索器的相关度计算;S5、多模态答案生成:大语言模型根据多模态输入产生文本回复。本发明使用图片和文本组合的多模态文档作为知识载体,设计了一种多模态检索增强生成的方案。相比现有的端到端模型方案,本方案基于检索增强生成框架,保证了答案的准确性和可解释性;相比于使用文本文档作为知识载体的检索增强生成方案,本方案为文档增加了视觉信息以构建多模态文档,并且改进了知识检索器和答案生成器以利用多模态文档,进而提高了知识密集型视觉问答任务的准确性。

本发明授权一种基于多模态文档的检索增强生成方法在权利要求书中公布了:1.一种基于多模态文档的检索增强生成方法,其特征在于,所述检索增强生成方法包括如下步骤: S1、数据构造:构建由多模态文档组成的多模态知识库; S2、多模态知识检索器的特征抽取:用户输入中的问题图片和问题文本分别被图像编码器和文本编码器编码为特征,其中图片抽取全局特征和局部特征,文本抽取文本特征;多模态文档中的文档图片抽取全局特征,文档文本抽取文本特征; S3、多模态知识检索器的特征映射:将步骤S2抽取的特征映射到同一维度;图片的全局特征和局部特征分别使用多层感知机和Transformer网络进行映射,文本则采用线性层进行映射; S4、多模态知识检索器的相关度计算:用户输入侧的每个特征与该文档的所有特征各自进行点乘,并取最大值作为输入侧的特征对应的相关度,然后将所有相关度求和作为最终的相关度; S5、多模态答案生成:大语言模型根据多模态输入产生文本回复; 步骤S4中,对于多模态文档的检索,设计对于多模态特征的掩码交互策略来优化性能,即用户输入侧图片的局部特征和文档侧图片的全局特征的点乘值被掩码为负无穷,以期减少不相关特征对于相关度计算的干扰;具体为:对于用户输入中的问题文本q和问题图片I,若某多模态文档包含文本d和图片Id,两者的相关度r计算为: ; 其中,矩阵Q为q和I经过用户输入侧特征抽取和特征映射得到的特征矩阵,D为d和Id经过文档侧特征抽取和特征映射得到的特征矩阵,lQ和lD分别为Q和D包含的特征数量;其中mask表示掩码交互策略,其将用户输入侧图片的局部特征和文档侧图片的全局特征的点乘值设置为负无穷,其他值保持不变。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民大学,其通讯地址为:100872 北京市海淀区中关村大街59号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。