福州大学廖祥文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉福州大学申请的专利一种基于双路编码和精确匹配信号的观点检索系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116010553B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211628289.2,技术领域涉及:G06F16/3331;该发明授权一种基于双路编码和精确匹配信号的观点检索系统是由廖祥文;梁明;何佳;杨思源;张纬峰设计研发完成,并于2022-12-17向国家知识产权局提交的专利申请。
本一种基于双路编码和精确匹配信号的观点检索系统在说明书摘要公布了:本发明提供了一种基于双路编码和精确匹配信号的观点检索系统,包括:一个查询文本和文档文本预处理模块,对输入的查询和候选文档据进行预处理;一个查询文本和文档文本相关得分计算模块;一个查询文本和文档文本观点得分计算模块,通过预训练模型计算候选文档的观点得分;统一相关检索模块,用于根据相关检索模块得出的查询和文档的相关得分和根据观点得分模块获取文档的观点得分,最终计算文档的观点检索得分。本技术方案通过双路编码来获取局部语义信息和全局语义信息,能够通过融合并基于这些信息进行观点检索,通过精确匹配机制获取的精确语义信息能够提高查询与文档的相关性。
本发明授权一种基于双路编码和精确匹配信号的观点检索系统在权利要求书中公布了:1.一种基于双路编码和精确匹配信号的观点检索系统,其特征在于,包括: 一个查询文本和文档文本预处理模块,对输入的查询和候选文档据进行预处理,主要对数据去除符号、表情、停用词无关信息,以及对数据进行分词、编码和映射语义空间获得词向量和句表示向量; 一个查询文本和文档文本相关得分计算模块,通过transformer和循环神经网络LSTM获取句子编码,然后把两路获取到的编码信息进行融合,将句子表示加入到精确匹配网络获取,获取精确匹配语义信息,最后将语义信息用高斯核池方法,获取查询和文档之间的相关得分; 一个查询文本和文档文本观点得分计算模块,通过预训练一个观点特征提取模型,通过预训练模型计算候选文档的观点得分; 统一相关检索模块,用于根据相关检索模块得出的查询和文档的相关得分和根据观点得分模块获取文档的观点得分,最终计算文档的观点检索得分,对文档进行排序,输出排序结果; 查询文本和文档文本相关得分计算模块由双路上下文编码层、上下文融合层、精确匹配层、卷积层、匹配层、核池化层及学习层组合而成; 双路上下文编码层由TransformerEncoder和LSTM循环神经网络组成,根据输入词向量用于获取对应全局上下文语义表示和局部上下文语义表示的上下文向量; TransformerEncoder公式如下: X′=TransformerX TransformerX=LayerNormLayerNormMultiHeadAttentionLLX+X+ FFNLayerNormMultiHeadAttentionLLX+X LLX=LinearReLULinearX MultiHeadAttentionX=Concathead1,…,headhWO LinearX=XAT+b FFNX=max0,XW1+b1W2+b 其中X为对应输入的词向量,MultiHeadAttention为多头自注意力模块,ReLU为非线性激活函数,Wi为需要模型学习的参数矩阵; LSTM公式如下表示: ft=σWf·[ht-1,xt]+bf it=σWi·[ht-1,xt]+bi Ot=σWo[ht-1,xt]+bo ht=Ot*tanhCt Ti=ht 其中,σ表示logisticsigmoid函数;tanh表示Hyperbolictangent函数;Wf、Wi、Wc、Wo表示可训练的参数矩阵;bf、bi、bc、bo表示对应的偏置;it表示t时刻的输入门,决定当前时间步输入需要保留的信息;ft表示t时刻的遗忘门,用于控制历史细胞状态应该丢失的信息比例;ot表示t时刻的输出门,用于控制隐藏状态的输出;表示由非线性函数tanh计算出的当前输入特征;Ct表示t时刻的记忆单元状态;ht表示t时刻的隐含层输出向量; LSTM结构根据上一时间步状态计算当前节点状态,获取局部上下文语义信息; X″=GateLinearConcatTransformerX,LSTMX GateY=tanhW*σW1*Y,h+σW2*Y,h 上下文融合层主要由全连接层模块和门控网络组成,全局上下文语义信息和局部上下文语义信息通过拼接的方式进行第一步融合,此时每个表示向量的维度变为原来的两倍,然后通过第一个全连接层对这些向量进行降维,每个表示向量的维度变回原来的维度,得到全局和局部的融合上下文表示向量,此时每个词语对应的上下文向量不仅包含自身单词的信息,还带有不同层次且丰富的上下文信息;Wi为需要模型学习的参数矩阵,σ表示logisticsigmoid函数,Y为拼接的语义信息,h为上一节点的隐藏状态,tanh为双曲正切函数; 精确匹配层相关计算公式: 点积函数:最常用的计算方式,查询向量q和文档向量q直接进行点积运算得到相关性分数: rel1q,d=qTd 缩放点积函数:查询向量q和文档向量d做点积运算后乘以缩放因子得到相关性分数,其中dim为查询向量q的维度: 再通过 similarq,d =LinearLinearConcatrel1,rel2+Linearq 卷积层由若干个窗口大小不同的卷积核组成,通过这些卷积核可以在上一层获取到的融合局部上下文信息和全局上下文信息的基础上进一步获取输入文本中的相邻位置表示信息; Ch=ReLUWh·X”+bh,i=1,2,…,n 其中h∈[1,N]为卷积核在词语维度的窗口大小,N=2,W为卷积核的参数矩阵; 匹配层根据上一层获得的N-Gram信息,计算用户查询和候选文档之间的每个N-Gram向量的相似度得分,构建查询-候选文档的交互矩阵: 核池化层由k个高斯核函数组成,用于产生软交互特征,该层通过k个高斯核函数计算交互矩阵中k个强度级别的N-Gram相似度得分,捕捉隐含的软交互特征φM: 学习层通过学习根据上一层提取到的软交互特征,获得最终的相关得分RelScore; RelScoreq,d=sigmoidLinearφM; 查询文本和文档文本观点得分计算模块引入预训练模型,通过训练一个观点特征提取的预训练模型,引入大语料预训练模型Bert的Encoder结构,提取出文本的深层上下文语义信息,经过微调训练出符合本系统的观点特征提取器,从而得到候选文档的观点得分。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励