重庆大司空信息科技有限公司陈锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆大司空信息科技有限公司申请的专利基于正则表达式与scrapy的招中开标关键词信息提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115329136B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210450615.9,技术领域涉及:G06F16/901;该发明授权基于正则表达式与scrapy的招中开标关键词信息提取方法是由陈锋;廖泽丽;周剑洪;赵航翊;谭寒月;任毅;吴林健设计研发完成,并于2022-04-27向国家知识产权局提交的专利申请。
本基于正则表达式与scrapy的招中开标关键词信息提取方法在说明书摘要公布了:本发明公开了基于正则表达式与scrapy的招中开标关键词信息提取方法,包括:S1.确定招中开标项目解析字段;S2.收集整理字段的关键词列表,所述关键词列表根据字段需求,创建有序关键词列表或无序关键词列表;S3.根据具体字段情况选择后续处理方法。本发明通过结合正则表达式与scrapy,能够对招中开标项目进行多重关键词信息提取,以避免漏查的问题;本发明分别对招标、中标项目和开标项目分别进行关键词信息提取,能够根据开标项目关键词提取方式不同进行针对性查询提取,实现快速提取文本中的重要信息,去除无用数据,解决信息冗余,阅读困难等问题。
本发明授权基于正则表达式与scrapy的招中开标关键词信息提取方法在权利要求书中公布了:1.基于正则表达式与scrapy的招中开标关键词信息提取方法,其特征在于,包括以下步骤: S1.确定招中开标项目解析字段; S2.收集整理字段的关键词列表,所述关键词列表根据字段需求,创建有序关键词列表或无序关键词列表,所述有序关键词列表为关键词之间有优先级顺序的关键词列表,所述无序关键词列表为关键词之间为同级关系的关键词列表,所述关键词列表包括起始关键词列表、结尾关键词列表中的一种或多种; S3.根据具体字段情况选择后续处理方法,所述后续处理方法包括scrapy招中标处理方法、正则表达式招中标处理方法、scrapy开标处理方法和正则表达式开标处理方法,其中,所述scrapy招中标处理方法、正则表达式招中标处理方法用于对招中标项目进行关键词信息提取,所述scrapy开标处理方法、正则表达式开标处理方法用于对开标项目进行关键词信息提取; 所述scrapy招中标处理方法具体包括以下子步骤: S3011.通过scrapy的Selector类,将详情页的正文构建成一个选择器对象,通过处理、提取对象信息,获取需求值; S3012.使用选择器对象的方法,检索所有的表格标签,构建表格对象列表; S3013.将表格对象循环取出,传入预设置的表格处理模型,所述表格处理模型用于关键词列表有序性的判定、定位表头、定位关键词位置; S3014.对表格对象进行关键词信息查找; 所述步骤S3014具体包括以下子步骤: S30141.当没有查找到关键词信息时,循环步骤S3013,直至所有表格查找完毕; S30142.当查找到关键词信息时,将表格处理模型的返回值传入需求值处理模型,所述需求值处理模型用于提取需求值,需求值判定,需求值标准化处理; 所述正则表达式招中标处理方法具体包括以下子步骤: S3021.将关键词列表中的关键词扩展为正则表达式语句并组合成新的关键词列表,通过正则替换和BeautifulSoup,将详情页正文处理为不带html标签的纯文本信息,通过处理、提取文本信息,获取需求值; S3022.将所有关键词列表传入预设置的文本处理模型,所述文本处理模型用于关键词列表有序性的判定、定位关键词位置; S3023.对文本信息进行关键词查找; 所述步骤S3023还包括当查找到关键词信息时,将文本处理模型的返回值传入需求值处理模型,所述需求值处理模型用于提取需求值,需求值判定,需求值标准化处理; 所述后续处理方法还包括: S3031.首先通过scrapy处理方法对表格对象进行关键词信息查找,当查找有结果,则输出结果,当查找无结果,则执行步骤S3032; S3032.当查找无结果,则使用选择器对象的方法,提取选择器里面的纯文本信息列表; S3033.从纯文本信息列表中取出纯文本字符串元素,检索起始关键词是否在该字符串元素中,当结果为是时,则执行步骤S3034;当结果为否时,则循环执行步骤S3032; S3034.将该字符串和结尾关键词列表一起传入字段处理函数中,判断是否能提取出符合要求的值,当结果为是时,则输出该值作为改字段的匹配值,当结果为否时,则循环执行步骤S3032; 当循环执行步骤S3032,纯文本信息列表循环完毕没有匹配到需求值,则通过正则表达式处理方法进行关键词查找; 所述scrapy开标处理方法包括以下步骤: S3041.通过scrapy的Selector类,将详情页的正文构建成一个选择器对象,通过处理、提取对象信息,获取需求值; S3042.使用选择器对象的方法,定位所有的表格标签,构建表格对象列表; S3043.从表格对象列表中取出表格对象放入表格处理模型中,所述表格处理模型用于定位企业名称位置,按行横向处理每组数据,将需求值与字段名一一对应、处理需求值格式; S3044.输出一个里面包含多组数据的列表,每组数据包含所有需求字段和相对应的值; 当无法匹配到任何结果时,则采用和正则表达式开标处理方法进行关键词信息查找,具体包括以下步骤: S3051.通过正则替换和BeautifulSoup,将详情页正文处理为不带html标签的纯文本信息,通过对文本的处理提取获取需求值; S3052.匹配企业名称,根据企业名称将文本划分为若干份,将划分好的字符串与所有字段关键词一起传入文本处理模型,所述处理模型用于有序划分所有需求值、将需求值与字段名一一对应、处理需求值格式。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大司空信息科技有限公司,其通讯地址为:400000 重庆市渝北区两江新区高科财富园3号楼A幢6层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励