国网信通亿力科技有限责任公司何秋芸获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网信通亿力科技有限责任公司申请的专利一种基于非结构化地址数据构建结构化地址库的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116662472B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310695623.4,技术领域涉及:G06F16/29;该发明授权一种基于非结构化地址数据构建结构化地址库的方法是由何秋芸;陈伟;谢宏宇;郑炜;曾荣甫;许熠;林笔星;赖伟平;黄晓玲设计研发完成,并于2023-06-13向国家知识产权局提交的专利申请。
本一种基于非结构化地址数据构建结构化地址库的方法在说明书摘要公布了:本发明涉及深度学习技术领域,公开了一种基于非结构化地址数据构建结构化地址库的方法,包括以下步骤:构建初始地址树;从地址文本中提取地址要素;地址要素映射初始地址树;构建并训练地址要素纠错模型;使用地址要素纠错模型,并对地址要素进行纠错;对初始地址树进行剪枝获得最终地址树;本发明通过提取非结构化的地址文本中的地址要素,并通过神经网络模型对地址要素进行自动纠错,将非结构化的地址文本构建成结构化的地址树。
本发明授权一种基于非结构化地址数据构建结构化地址库的方法在权利要求书中公布了:1.一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,包括以下步骤: 步骤一:构建初始地址树; 初始地址树包括8个层级; 步骤二:从地址文本中提取地址要素; 从地址文本中提取地址要素,一个地址要素是一个词; 步骤三:地址要素映射初始地址树; 一个地址文本生成一个地址要素集合,表示为,集合中的地址要素的顺序与地址文本中的地址要素的顺序相同;基于命名实体识别将地址要素映射到初始地址树的层级,并对集合中相邻的地址要素之间通过单向指针建立连接; 步骤四:构建并训练地址要素纠错模型; 基于初始地址树的地址链条生成地址链条特征矩阵; 地址链条特征矩阵表示为:,其中表示其中的第n列第s行的元素,并表示第n个层级的地址要素的混合向量的第s个维度; 混合向量通过词向量和位置向量组合获得,第n个层级的地址要素的混合向量的对应词向量的维度,对应位置向量的维度; 如果地址链条的第n个地址要素为空,则将第n个层级的地址要素的混合向量的各个维度的值插补为0; 地址要素纠错模型的输出映射到八个分类空间,第i个分类空间表示为,其中-分别表示第i层的地址要素的五个错误类型,五个错误类型分别为地址正确、地址错字、地址层级顺序错乱、地址缺失、同时出现地址错字和地址层级顺序错乱; 步骤五:使用地址要素纠错模型,并对地址要素进行纠错; 使用地址要素纠错模型,并对地址要素进行纠错包括以下步骤: 步骤201,输入初始地址树的一个地址链条特征矩阵,输出地址链条的每个地址要素的错误类型; 步骤202,从地址链条的最后一个地址要素向上进行遍历,直至遍历的地址要素的错误类型为正确,如果能够遍历到正确节点,则进入步骤203,否则进入步骤204; 步骤203,从完整地址库中遍历包含正确的地址要素的完整地址; 步骤204,从地址链条的最后一个地址要素向上进行遍历,遍历所有错误类型为地址层级顺序错乱的地址要素作为第一地址要素,从完整地址库中遍历包含第一地址要素的完整地址; 步骤205,从步骤203或步骤204中获得的完整地址中选择与当前的地址链条最匹配的一个作为最终完整地址,然后基于该最终完整地址对当前的地址链条进行校正; 校正方式是基于最终完整地址生成地址链条替换当前的地址链条; 完整地址与当前的地址链条的匹配度是通过神经网络进行计算,神经网络的分类空间为离散化之后的匹配度评分; 步骤六:对初始地址树进行剪枝获得最终地址树。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网信通亿力科技有限责任公司,其通讯地址为:361000 福建省厦门市软件园二期观日路36号402室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励