西北工业大学周睿志获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种基于异构超图的自监督教科书问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117539988B 。
龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311419056.6,技术领域涉及:G06F16/3329;该发明授权一种基于异构超图的自监督教科书问答方法是由周睿志;宋凌云;尚学群设计研发完成,并于2023-10-30向国家知识产权局提交的专利申请。
本一种基于异构超图的自监督教科书问答方法在说明书摘要公布了:本发明涉及一种基于异构超图的自监督教科书问答方法,属于教育领域。包括:文本检索:根据每道题的问题与候选答案来得到与其相关度最高的一段背景知识;教科书问答异构超图构建:用异构超图的形式分别表示问题、候选答案、背景知识及其之间的关联关系;文本匹配自监督预训练:利用文本检索的结果作为监督信号,加强模型对问题与知识点之间的关联关系的建模能力;微调:使用标注数据对预训练后的异构超图神经网络进行微调。本发明解决了教科书问答中的问题、答案和知识点三者之间高阶关联建模的问题;采用了自监督文本匹配预训练,以降低模型对大量有标注的教科书问答数据样本的依赖。
本发明授权一种基于异构超图的自监督教科书问答方法在权利要求书中公布了:1.一种基于异构超图的自监督教科书问答方法,其特征在于包含以下步骤: 步骤1:获取教科书问答数据集,其中表示问题数量,表示第个问题,表示第个问题的个候选答案,表示所有的背景知识; 步骤2:对于数据集中的每一个问题,使用文本检索方法从中检索出与其相关度最高的一段背景知识,文本检索后数据集可表示为,其中表示所有背景知识中与第个问题最相关的一段文本背景知识; 步骤3:根据检索后的问题、答案以及背景知识之间的关联关系,构建一个教科书问答异构超图;步骤3中教科书问答异构超图的构建方式具体为: 若多个答案来自于同一个问题的候选答案集合中,则将这些答案连接; 若某个答案存在于某个问题的候选答案集合中,则将该答案与该问题连接; 若某个背景知识为某个问题的文本检索的结果,则将该背景知识与该问题连接; 若多个背景知识来自于同一课程,则将这些背景知识连接; 步骤4:使用深度神经网络模型对步骤3中构建的异构超图中的节点进行特征初始化;步骤4中所使用的深度神经网络模型为RoBERTa-base、YOLO和ResNet101;对于答案节点、背景知识节点以及无图表问题节点,利用开源的预训练过的RoBERTa-base模型获取初始序列特征;对于有图表问题节点,则是在文本序列特征的基础上融入视觉特征;有图表问题中问题节点的特征初始化公式如下: 1 2 3 式中,表示第个问题的文本数据,表示第个问题的图表数据,表示图表理解模块,表示哈达马积运算,表示对建模后得到的表征向量,表示向量维度,表示对建模后得到的表征向量,表示多模态融合表征向量,即问题文本与问题图表融合的结果; 图表理解模块利用ResNet101模型来学习YOLO在图表中检测到的第个区域的特征向量,然后使用全连接层将其坐标投影为一个维的位置向量,再将特征向量与位置向量取算术平均,得到图表中第个区域的特征表示,最后将所有区域的特征表示进行求和,得到整张图表的特征表示;具体计算公式如下所示: 4 5 式中,为可学习的参数矩阵,表示YOLO在图表中检测到的区域数量; 步骤5:构建异构超图神经网络来学习步骤4中节点特征初始化后的异构超图; 步骤5.1:根据步骤2中文本检索的结果构建正负样本对;步骤5.1中正负样本对的构建,具体为: 将所有问题按照课程顺序排序,对于每一个问题,存在一个正样本对和一个负样本对;首先,将问题节点和它的所有候选答案节点进行特征融合,作为,其中表示每个问题的答案选项的数量;计算公式如下: 6 然后将和其最相关的背景知识作为正样本对,和不相关的背景知识作为负样本对,其中,表示问题数量; 步骤5.2:计算步骤5.1中构建的每个样本对中文本的相似度,并根据二元交叉熵来优化异构超图神经网络;步骤5.2中使用余弦相似度来计算各样本对中文本的相似度,具体为: 7 采用二分类交叉熵作为损失函数优化异构超图神经网络,损失计算公式如下: 8 步骤6:在步骤5的异构超图神经网络后面接上一个多层感知器作为预测头,将拼接后的神经网络作为问答模型,并进行参数微调,通过交叉熵损失来进一步优化该模型的参数;其中,微调模型参数,具体为: 对于任意一个问题节点,将其特征与该问题的所有候选答案节点特征分别进行融合;最终,添加一个多层感知器作为预测头,并通过交叉熵来微调模型参数,计算公式如下: 9 10 11 式中,表示问题数量,表示每个问题的答案选项的数量,是一种激活函数,表示多层感知器,表示拼接操作; 步骤7:测试过程中,对于任意一个问题节点,将其特征与该问题的所有候选答案节点特征分别进行融合,然后输入到预测头中,最后通过softmax函数得到每一个候选答案的置信度,置信度最高的为正确答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市碑林区友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励