杭州未名信科科技有限公司;浙江省北大信息技术高等研究院潘帅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州未名信科科技有限公司;浙江省北大信息技术高等研究院申请的专利一种招标网页的正文抽取方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115098812B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210163751.X,技术领域涉及:G06F16/958;该发明授权一种招标网页的正文抽取方法、装置及存储介质是由潘帅;陈家银;张伟;陈曦;麻志毅设计研发完成,并于2022-02-22向国家知识产权局提交的专利申请。
本一种招标网页的正文抽取方法、装置及存储介质在说明书摘要公布了:本申请涉及数据处理技术领域,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间,又融合传统特征、深度学习算法及规则筛选的方式得到目标正文,从而提升了抽取正文的准确率。
本发明授权一种招标网页的正文抽取方法、装置及存储介质在权利要求书中公布了:1.一种招标网页的正文抽取方法,其特征在于,所述方法包括: 为待抽取的招标网页构建DOM树; 确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点,其中所述节点分数基于文本密度和符号密度计算得到; 从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本,其中确定过程包括从所述DOM树的根节点开始逐层遍历,对每一层节点进行路径搜索算法比较,将比较结果最优的节点存入所述待筛选文本集合; 对待筛选文本集合进行规则筛选,得到目标正文,其中所述规则筛选基于文本长度比值及链接文本进行。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州未名信科科技有限公司;浙江省北大信息技术高等研究院,其通讯地址为:311200 浙江省杭州市萧山区宁围街道钱江世纪公园C区1幢101室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。