Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东南大学;南京德容智慧信息科技有限公司张盛翔获国家专利权

东南大学;南京德容智慧信息科技有限公司张盛翔获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东南大学;南京德容智慧信息科技有限公司申请的专利基于多视角融合的结果多样化搜索方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117251630B

龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311169564.3,技术领域涉及:G06F16/9535;该发明授权基于多视角融合的结果多样化搜索方法及系统是由张盛翔;刘波;吴晓庆;朱瑞;曹玖新;刘艳设计研发完成,并于2023-09-12向国家知识产权局提交的专利申请。

基于多视角融合的结果多样化搜索方法及系统在说明书摘要公布了:本发明提供基于多视角融合的结果多样化搜索方法及系统。该方法首先计算网页文档、子话题的初始表征;然后在全局视角下通过注意力机制学习文档对子话题的注意力关系,计算文档对子话题的覆盖程度表征,新颖度表征和覆盖程度表征;接着从局部视角出发,考虑候选文档间的依赖关系,根据已选文档列表这一局部变化对文档集局部视角下的多样性特征建模,学习文档局部时序关联表征;之后对文档和搜索语句进行相关性建模,计算文档与搜索语句间的相关性表征;最后,通过构建搜索结果多样化排序模型,将搜索结果返回。本发明可以有效满足用户的多样化搜索需求,并可以一定程度上解决目前传统搜索存在的返回结果内容冗余度高,内容偏向单一话题等问题。

本发明授权基于多视角融合的结果多样化搜索方法及系统在权利要求书中公布了:1.一种基于多视角融合的结果多样化搜索方法,其特征在于,该方法包括以下步骤: 1信息表示 通过对信息的上下文分析和理解,计算得到网页文档、搜索语句及其子话题的初始表征; 步骤1包括如下具体步骤: 1-1输入网页文档集合P=[p1,p2,p3,...,pN],其中pi表示第i个文档,N表示文档总数; 1-2通过Doc2Vec模型的PV-DBOW训练机制,以得到包含词语义和词序信息的文档向量,PV-DBOW训练方法中第i个文档表示pi=[wi,1,wi,2,wi,3,...,wi,m],其中wi,j表示第i个文档的第j个单词,m表示文档单词总数;最后,给定文本窗口大小,随机采样文本窗口中的一个词,通过预测这个词的概率,不断迭代训练文档矩阵表示,得到文档信息表示;训练过程中的目标是最大化预测词的概率,计算过程如下: 其中,fp表示最大化文档p中随机采样词语的预测概率计算,ωv,z表示采样的第v个文本窗口中第z个随机采样预测词语,W为文本窗口集合,v是W中随机采样的文本窗口,V表示窗口v中词语集合,z是V中随机采样的词语,Pωv,z|p表示给定文档p生成预测词语ωv,z归一化后的概率,其计算过程如下: 其中,yk表示归一化前预测第k个词语的概率,∑kexpyk表示对所有预测词语的归一化前概率进行求和,最后通过梯度下降法对文档向量进行更新得到最终文档集合表示,文档集合的信息表示计算公式如下: D=Doc2VecP 其中,D表示最终文档集合表示,Doc2Vec·表示Doc2Vec模型,P表示网页文档集合; 1-3通过对数据集中信息的表示学习,网页文档集合P=[p1,p2,p3,...,pN]不断迭代更新学习得到最终的文档集合信息表示D=[d1,d2,d3,…,dN],在搜索语句及其子话题的信息表示时,首先使用相关性搜索方法召回文档,然后将前列文档拼接成一个新的文档,将这个新文档的信息表示结果作为对应搜索语句或者子话题的信息表示向量,为了与文档表示在同一语义空间,同样使用Doc2Vec模型对搜索语句及子话题进行表示,得到搜索语句的信息表示q及子话题的信息表示S=[s1,s2,s3,…sk]; 2全局多样性表征计算 结合步骤1得到的网页文档、搜索语句及其子话题的初始信息表示,使用自注意力机制分别从文本视角和子话题视角计算文档的和子话题的新颖度表征,并使用交叉注意力机制,计算文档和子话题相互融合的跨注意力表征,然后使用注意力机制将网页文档的跨注意力表征作为查询向量,子话题跨注意力表征作为键向量和值向量计算网页文档对子话题覆盖程度表征,最后结合网页文档的新颖度表征和网页文档对子话题的覆盖程度表征作为全局多样性表征; 步骤2包括如下具体步骤: 2-1新颖度编码阶段,将文档集合上一层表示Dl-1=[d1,d2,d3,…,dN]作为自注意力机制的初始输入,使用多头自注意力机制更新文档之间的表征得到本层的文档表示Dl,经过L层多头自注意力计算最终得到文档自注意力编码矩阵其中表示第i个文档经过新颖度编码器的向量表示,多层多头自注意力编码器对新颖度表征分为三个部分, 首先,计算注意力系数al,t,计算过程如下: al,t=AttnDl-1,Dl-1,Dl-1 其中,al,t表示第l层的第t组注意力系数,其中的查询Q、键K和值V均为前一层多头自注意力机制输出的文档矩阵表示Dl-1,Dl-1表示第l-1的隐藏层输出,经过h组自注意力机制系数的拼接,得到多头自注意力系数MHSAl=[al,1;al,2;al,3;…;al,h]; 其次,通过前馈神经网络、残差连接以及层归一化操作计算得到第l层的多头自注意力表示Dl=MultiSelfAttnlDl-1,计算过程如下: X=LayerNormDl-1+MHSAl Dl=LayerNormX+FeedForwardX 其中,X表示输入,MHSAl表示多头自注意力系数,FeedForwardX表示前馈神经网络,LayerNorm·表示层归一化操作; 最后,通过多层多头自注意力编码器学习得到包含有新颖度信息的文档矩阵表示其中表示第i个文档经过新颖度编码器后的最终向量表示;其计算过程如下: Denc=MultiSelfAttnLMultiSelfAttnL-1…MultiSelfAttn1D 其中,MultiSelfAttnL表示第L层多头注意力; 子话题新颖度表示的计算方式与上述方法一致,唯一不同的是初始输入改为子话题集合信息表示S=[s1,s2,s3,…,sk],最终得到多层多头自注意力编码后的子话题新颖度表征 2-2子话题覆盖程度解码阶段,将步骤2-1得到的文档新颖度表征和子话题新颖度表征作为输入,对子话题新颖度表征和文档新颖度表征进行交叉注意计算文档与子话题间的关联程度,得到文档交叉注意力特征表示与子话题交叉注意力特征表示其计算过程如下: Dco=CrossAttentionDenc,Denc Sco=CrossAttentionSenc,Denc 其中,CrossAttention·表示交叉注意力,Denc表示文档新颖度表征,Senc表示子话题新颖度表征; 以第一层计算为例,交叉注意力的具体计算如下: at=AttentionDco,Sco,Scot∈[1,h] 其中,at表示第t组注意力头的注意力系数,将h个注意力系数拼接得到多头注意力系数MHAl=[a1;a2;a3;…;ah],解码器通过计算多头注意力系数、层归一化操作、残差连接和前馈网络得到文档的多头注意力表示,激活函数为ReLU;随后,通过L层多头注意力机制解码器得到文档对子话题多角度多层次的注意力表示,其形式化表示如下: Ddec=MultiAttnLMultiAttnL-1…MultiAttn1Dco Ddec为解码器输出的最终表示,代表文档对子话题覆盖程度表征; 2-3通过将步骤2-1得到的文档新颖度表征,步骤2-2得到文档对子话题覆盖程度表征进行拼接得到文档的全局多样性表征; 3局部多样性表征计算 结合步骤1中得到的网页文档的初始表征,根据已选网页文档中的文档选择顺序,使用长短期记忆网络计算得到文档的时序信息表征,构建文档图将时序信息表征作为文档图的节点表征并通过图注意力机制计算文档间的时序关联表征作为局部多样性表征; 步骤3包括如下具体步骤: 3-1通过LSTM模型学习得到包含前序文档内容的时序关系表征,在LSTM的隐藏层可以计算第i个文档的隐状态表示计算过程如下: 其中,di表示第i个文档在LSTM中的初始输入表示,表示第i个文档经过LSTM计算后输出的时序特征表示; 3-2将集合中的每个文档作为图的节点构建文档图,图的边关系由邻接矩阵E定义,邻接矩阵E是N×N的矩阵,eab表示文档节点a与文档节点b的连接关系,若eab=1表示da与db连接,eab=0表示da与db未连接;其定义如下: 考虑到集合内的文档都是与当前搜索相关的,每个文档都依靠与其它所有文档的关系学习潜在的多样性特征,因此文档图设置为全连接图,每进行一次文档选择,都将重新进行文档图构建,将步骤3-1中计算得到的最新时序特征作为节点表示; 3-3使用图注意力网络对文档节点进行更新,文档di通过聚合上一层自身的特征及其邻居节点的特征信息得到本层的特征表示计算过程如下: 其中,表示第i个文档在第l层时更新后的表示,Ndi表示文档节点di的所有邻居节点集合,dg∈Ndi,σ·为非线性激活函数,Aggregation·为聚合函数,设定层数图注意力网络层数l,第i个文档在第l层时更新后的表示即为其局部多样性表征; 4相关性表征计算 结合步骤1中的网页文档、搜索语句和子话题的初始表征,使用依赖文档和搜索语句的方法和仅依赖文档的方法分别计算文档和子话题之间的初始相关性表征,并将得到的初始相关性表征通过多层感知机处理得到更新后的相关性表征,考虑到子话题间的内容存在主题交叉,语义冗余的情况,将步骤2中计算得到的子话题新颖度表征通过多层感知机得到的分数作为相关性系数与更新后的相关性表征相乘作为最终的相关性表征; 5搜索结果多样化排序模块 结合步骤2得到的全局多样性表征、步骤3得到的局部多样性表征、步骤4得到的相关性表征,构建搜索结果多样化模块,对全局多样性表征、局部多样性表征、相关性表征进行拼接并通过多层感知机计算文档分数,最后根据分数选择前k个分数最高的文档作为最具多样性的搜索结果列表返回给用户。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学;南京德容智慧信息科技有限公司,其通讯地址为:211189 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。