中国工商银行股份有限公司方磊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国工商银行股份有限公司申请的专利网页中目标内容信息的获取方法、装置和服务器获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116561402B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310609653.9,技术领域涉及:G06F16/953;该发明授权网页中目标内容信息的获取方法、装置和服务器是由方磊;李中杰;赵睿;黄平汇设计研发完成,并于2023-05-26向国家知识产权局提交的专利申请。
本网页中目标内容信息的获取方法、装置和服务器在说明书摘要公布了:本说明书提供了网页中目标内容信息的获取方法、装置和服务器,应用于人工智能领域。基于该方法,可以先基于视觉维度,利用预设的图像处理模型处理目标网站网页页面的页面截图,筛选出第一父网页页面和第一子网页页面的页面截图;再基于文本维度,利用预设的文本识别模型分别处理第一父网页页面的页面截图和第一子网页页面的页面截图,确定出包含有待提取的目标内容信息的目标网页页面;并基于结构维度,根据目标网页页面的页面链接,以及相匹配的页面结构规则,从目标网页页面中提取目标内容信息。从而通过融合并利用网页页面视觉、文本、结构等多个维度的特征,全面、高效地从目标网站所包含的大量网页页面中精准地提取出所需要的目标内容信息。
本发明授权网页中目标内容信息的获取方法、装置和服务器在权利要求书中公布了:1.一种网页中目标内容信息的获取方法,其特征在于,包括: 获取涉及目标内容的目标网站的网站种子数据; 根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应; 利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图; 利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果; 根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面; 根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息; 利用预设的语义识别模型处理目标内容信息,得到对应的目标语义分类结果; 根据目标语义分类结果,确定所提取到的目标内容信息是否满足质量要求; 若确定所提取到的目标内容信息满足质量要求,则获取目标网页页面的文本识别结果,以及与目标网页页面存在从属关系的关联网页页面的文本识别结果; 根据目标网页页面的文本识别结果,以及关联网页页面的文本识别结果,从所述关联网页页面中提取与目标内容信息相关的关联内容信息; 根据目标内容信息和关联内容信息,生成关于目标网站的目标内容信息的汇总报告。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国工商银行股份有限公司,其通讯地址为:100140 北京市西城区复兴门内大街55号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励