华东师范大学林欣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种基于表格-文本混合数据的多跳问答模型构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115481613B 。
龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211107796.1,技术领域涉及:G06F40/18;该发明授权一种基于表格-文本混合数据的多跳问答模型构建方法是由林欣;彭凯龙;吴平设计研发完成,并于2022-09-13向国家知识产权局提交的专利申请。
本一种基于表格-文本混合数据的多跳问答模型构建方法在说明书摘要公布了:本发明公开了一种基于表格‑文本混合数据的多跳问答模型构建方法,所构建的模型由文本内容过滤模块、表格行内容筛选模块以及融合数据抽取问答模块组成。文本内容过滤模块用于筛选与问题相关的文本句段内容;表格行内容筛选模块用于构建表格行‑文本融合数据并进一步筛选出与问题相关的内容;融合数据抽取问答模块用于在表格行内容‑文本融合数据中抽取答案。本发明构建的模型通过对内容的筛选,大幅减少冗余信息,使文本内容对表格内容进行有效补充,加快模型训练速度,提高了表格‑文本混合数据问答的准确性。
本发明授权一种基于表格-文本混合数据的多跳问答模型构建方法在权利要求书中公布了:1.一种基于表格-文本混合数据的多跳问答模型构建方法,其特征在于,该方法在模型构建过程中使用包括以下内容的表格-文本混合数据集: 问题q及其对应表格数据T={H,D},其中含有表格的列名H={h1,...,hn}以及表格的m行n列数据D={r1,...,rm},第i行数据表示为ri={di1,...,din},位于i行j列的单元格存在或不存在o个对应的实体标题-文本对Pij={eij1:pij1,...,eijo:pijo}; 所构建的模型包括:文本内容过滤模块、表格行内容筛选模块及融合数据抽取问答模块;所述文本内容过滤模块用于以行为单位筛选与单元格内容存在链接并与问题相关的句段内容;所述表格行内容筛选模块用于以行为单位构建表格行-文本融合数据,训练得到表格行内容筛选模型并进一步筛选出与问题相关的内容;所述融合数据抽取问答模块用于在剩余的表格行内容-文本融合数据中训练得到融合数据抽取问答模型并抽取答案;其中: 所述以行为单位筛选与单元格内容存在链接并与问题相关的句段内容,具体过程为: A1:将表格一行数据的所有链接文本拆分成句段,计算每个句段pijk与问题q的文本相似度sijk;公式如下: pijk-cat=[CLS]eijk:pijk[SEP] qcat=[CLS]q[SEP] uijk=BERTpijk-cat v=BERTqcat sijk=uijk·v 其中pijk-cat表示句段文本pijk与所在文本的实体标题eijk以及特殊字符[CLS]、[SEP]拼接后得到的序列;qcat表示问题q与特殊字符[CLS]、[SEP]拼接后得到的序列;BERT表示预训练BERT编码模型;uijk表示pijk-cat经BERT模型编码后取[CLS]字符得到的向量作为句向量;v表示qcat经BERT模型编码后取[CLS]字符得到的向量作为句向量;.表示向量点乘操作; A2:将同一行所有文本句段计算得到的相似度从大到小排序,取相似度最高的前Kp个句段进行保留; 所述以行为单位构建表格行-文本融合数据,训练得到表格行内容筛选模型并进一步筛选出与问题相关的内容,具体步骤为: B1:将表格的每一行数据构造为表格-文本融合序列ri-cat=c1-cat,...,cn-cat,其中cj-cat为第j个单元格内容的拼接结果:若该单元格存在经上一步筛选而保留的文本,则cj-cat=hj:dijpij-cat,否则cj-cat=hj:dij;文本pij-cat为“实体标题:文本”键值对的拼接结果; B2:遍历表格每一行的所有单元格内容与文本内容,若其中存在答案文本,则定义该行与问题相关,令该行数据ri-cat与问题q的相关度si=1,否则si=0; B3:使用表格行内容筛选模型计算第i行数据ri-cat与问题q的相关度公式如下: qcat-r=[CLS]q[SEP]ri-cat[SEP] 其中qcat-r为问题q与融合文本ri-cat以及特殊字符[CLS]、[SEP]拼接后得到的序列;FFN代表线性操作;Softmax代表softmax激活函数;与分别为第i行数据计算得到的正负相关度; B4:计算表格行内容筛选模型输出与标签si的偏差损失Lr;公式如下: 其中θr为表格行内容筛选模型参数; B5:遍历训练数据集中所有问题-行文本对并计算损失,根据损失调整模型参数直至Lr不再降低,得到最终的表格行内容筛选模型; B6:使用步骤B5得到的模型,将同一表格所有行数据计算得到的正相关度从大到小排序,取相似度最高的前Kr行进行保留; 所述在剩余的表格行内容-文本融合数据中训练得到融合数据抽取问答模型并抽取答案,具体过程为: C1:将筛选得到的Kr行表格行内容-文本融合数据构造为序列作为问题q的参考文本; C2:在序列t中寻找答案,标记答案的起始位置st与结束位置en,若未找到则st=0且en=0;令答案起始位置的起始概率psst=1,结束位置的结束概率peen=1,序列其余位置的ps、pe均为0; C3:使用融合数据抽取问答模型计算问题q在参考t中的答案位置与公式如下: qcat-t=[CLS]q[SEP]t[SEP] 其中qcat-t为问题q与序列t以及特殊字符[CLS]、[SEP]拼接后得到的序列;TransformerEncoder表示TransformerEncoder编码模型; C4:计算融合数据抽取问答模型输出与真实答案ps、pe的偏差损失L;公式如下: Lθa=Lsθa+Leθa2 其中CrossEntropy为CrossEntropy损失函数,lenqcat-t为qcat-t的分词数量,θa为融合数据抽取问答模型参数; C5:遍历训练数据集中所有问题-参考文本对并计算损失,根据损失调整模型参数直至L不再降低,得到最终的融合数据抽取问答模型; C6:使用步骤C5得到的模型,计算参考文本中最大的位置分别作为参考文本中答案起始位置与结束位置取出从到的文本作为问题q的答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励