Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 上海交通大学刘伟获国家专利权

上海交通大学刘伟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉上海交通大学申请的专利基于多维度特征的通用二阶段网页信息提取方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119646331B

龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411693666.X,技术领域涉及:G06F16/957;该发明授权基于多维度特征的通用二阶段网页信息提取方法和系统是由刘伟;唐顾;卢彬;梁诗宇;甘小莺;金梦;傅洛伊;王新兵设计研发完成,并于2024-11-25向国家知识产权局提交的专利申请。

基于多维度特征的通用二阶段网页信息提取方法和系统在说明书摘要公布了:本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。

本发明授权基于多维度特征的通用二阶段网页信息提取方法和系统在权利要求书中公布了:1.一种基于多维度特征的通用二阶段网页信息提取方法,其特征在于,包括: 步骤S1:通过目标网页的HTML文本,剪裁并获取文本节点间结构关系; 步骤S2:通过解析网页HTML文本获得三种维度的离散信息特征,分别为XPath特征、位置特征和节点标签特征; 步骤S3:利用CNN-BiLSTM模型,获取不同粒度的、带依赖关系的文本特征,将文本特征与离散信息特征融合为一个多维度的节点表征向量; 步骤S4:通过神经网络多分类器,进行目标网页节点属性信息预测,完成一阶段网页节点级信息提取; 步骤S5:基于Transformer和预训练大语言模型对网页摘要部分进行向量化表征; 步骤S6:对摘要部分表征向量进行序列化文本范围预测,实现二阶段实体级网页信息提取; 所述步骤S1包括: 步骤S101:针对目标网页结构,结合HTML基础编码规则,保留基本的HTML元素标签,同时去除格式及样式标签,并重构裁剪后的HTML文本; 步骤S102:对文本节点进行结构关系标注,包括父子关系及兄弟关系; 所述步骤S2包括: 步骤S201:解析文本XPath特征,并根据目标网页的节点深度确定向量维度,通过one-hot编码实现XPath信息表征,表征向量记为eXPATH,维度记作dXPATH; 步骤S202:解析网页位置特征,使用深度优先搜索算法获取目标节点在网页中的位置序号posx,并通过下式计算整体的相对位置信息; 通过随机编码策略获取维度为dPOS的相对位置表征向量ePOS; 步骤S203:解析网页HTML标签,通过one-hot编码获得向量eTAG,维度记作dTAG; 步骤S204:将三类离散信息表征拼接,获得离散信息表征向量ed=[eXPATH,ePOS,eTAG],向量维度为dd=dXPATH+dPOS+dTAG; 所述步骤S3包括: 步骤S301:对节点内文本信息进行词级、字符级拆分,分别表征为X1=[w1,w2,…,wL1]和X2=[c1,c2,…,cL2],通过预先训练的Word2Vec模型对词级信息进行初始表征,记作gw; 步骤S302:对于字符级信息,通过one-hot方式进行初始编码,并通过多层卷积神经网络获取其最终表征,记作hw; 步骤S303:将词级、字符级表征通过拼接方式获取综合文本表征fw=[gw;hw],并通过双向LSTM模型进行编码,获取dw维文本表征向量ex; 步骤S304:将父节点eF、子节点eC、兄弟节点eB的表征向量进行拼接,获取最终的4dw维文本表征向量es=[ex;eF;eC;eB]; 所述步骤S4包括: 步骤S401:将离散信息表征向量与文本表征向量通过全连接层拼接为一个多维度文本特征向量en,en=[es;ed],其维度为dn,dn=ds+dd; 步骤S402:定义待提取属性类别为A=[a0,a1,...aM-1,aM,aM+1],其中包括M个定义类型,以及用于二阶段信息提取的摘要aM以及其他类型aM+1; 步骤S403:将文本特征向量与属性表征拼接后经过MLP层,并通过softmax层预测出该文本属性类型: 在多属性分类模型训练过程中,使用交叉熵损失函数进行优化: 其中,表示待分类节点的最终向量表征;表示属性ai的文本向量表征;hi表示通过MLP层后的输出;MLP表示用于计算属性概率的前馈神经网络;pi表示该文本节点对应属性ai的预测概率;j是求和过程中的变量;表示该节点的最终预测标签;ym,n表示第n个节点对应为第m类属性的真实标签;pm,n表示第n个基点对应第m类属性的预测概率;m,n分别表示第n个节点,第m类属性; 所述步骤S5包括: 步骤S501:对步骤S4中获取的目标网页摘要部分xdesc,定义二阶段提取目标属性为s,通过Transformer架构中的编码器部分获取中间层表示为: H=Encoders1,…,s|s|,x1,…,x|x| 其中,s|s|表示属性s最后一个token的向量表征;x|x|表示目标网页摘要部分xdesc最后一个token的向量表征; 步骤S502:通过Transformer架构中的解码器部分,使用自回归方式获取逐个token的表征向量yi为: 其中,为解码器状态; 所述步骤S6包括: 基于微调的大语言模型,对文本表征向量进行目标属性范围预测,获取目标范围[ybos;yeos],即为二阶段网页信息提取目标值,具体的微调方式通过优化如下损失函数实现; 其中,x代表所输入的文本向量,s代表信息抽取的结构提示,θe、θd分别代表编码器和解码器参数;表示微调所用的损失函数;表示微调数据集;logpy∣x,s;θe,θd表示当前文本、结构提示下,预测标签为y的条件似然概率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。