浙江邦盛科技股份有限公司;杭州邦睿科技有限公司汪陈笑获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江邦盛科技股份有限公司;杭州邦睿科技有限公司申请的专利一种字词信息融合的中文地址命名实体识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115906855B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211690568.1,技术领域涉及:G06F40/295;该发明授权一种字词信息融合的中文地址命名实体识别方法及装置是由汪陈笑;鲍迪恩;蒋炜;邓静;陈盼盼设计研发完成,并于2022-12-27向国家知识产权局提交的专利申请。
本一种字词信息融合的中文地址命名实体识别方法及装置在说明书摘要公布了:本发明公开了一种字词信息融合的中文地址命名实体识别方法及装置。主要分为三部分:词汇信息生成网络构建,标签分布学习网络构建和字符标签学习网络构建。本发明以在文本表示中获取并融入词汇信息为目标,通过n‑gram片段来表征词汇,针对字符模型缺乏足够上下文信息的缺陷,本发明综合字符信息和词汇信息,其中词汇信息生成来源选取是基于标签学习网络学习的字符词位信息,通过词位信息选取其中更适合的n‑gram片段表征字符所属词汇,最终给予模型足够且正确的上下文信息来学习全文信息,并开展下游命名实体识别任务的进行。本发明在保证融入词汇信息基于原始数据的同时,加快模型获取具体词汇的速度,同时提升了模型的精度。
本发明授权一种字词信息融合的中文地址命名实体识别方法及装置在权利要求书中公布了:1.一种字词信息融合的中文地址命名实体识别方法,其特征在于,该方法包括以下步骤: 1获取中文地址的n-gram片段向量表示为X=x1,x2,…,xn,以及获取对应的真实词汇片段Y=y1,y2,…,ym;其中n是n-gram片段中的字符数量,m是真实词汇片段中的字符数量; 2构建词汇信息生成网络,采用双塔模型的结构,该网络具体操作如下: 2.1将n-gram片段和真实词汇片段输入到词汇信息生成网络中,经过Embedding层获取随机字符向量编码; 2.2将字符向量编码经ELMO层和Dense层学习字符向量表示; 2.3字符向量表示经平均池化层meanpooling后,文本片段表征为词向量; 2.4在分类学习器中,将n-gram片段的词向量和真实词汇片段的词向量拼接,然后继续拼接两个词向量间差值与点乘,以获得词语间关系特征,经过全连接层后,将向量维度映射到二维空间中,判断两向量间的相似性; 3构建词汇信息获取网络,包含标签分布学习网络和字符标签学习网络两部分; 所述标签分布学习网络用和词汇信息生成网络同样的方式获取n-gram片段的字符向量表示,并提取文本特征编码,使用全连接层作为解码器,获取词汇对应标签的概率分布Plabel作为条件随机场的状态矩阵,通过条件随机场进行标签推断; 所述字符标签学习网络具体操作如下: 3.1选取标签分布学习网络经过Embedding层输出的字符向量EC作为嵌入层输出的一部分; 3.2根据当前字在n-gram中的不同位置以及词位标注种类q,通过词汇信息生成网络,获取最后一个Dense层之前的词向量集合为标注种类q的词向量; 3.3根据标签分布学习网络得到的标签的概率分布Plabel,学习每个字符标签属于各词位标注的概率Ppos; 3.4根据步骤3.2所得的词向量集合Eτ和步骤3.3所得的词位标注概率Ppos,通过张量积获取嵌入层中词汇信息EW; 3.5结合字符向量EC和嵌入层中词汇信息EW,输入WP-LSTM模型,然后使用Dense层和条件随机场作为解码器和标签推断层,输出Z=z1,z2,…,zn为预测的标签,最终学习中文地址命名实体识别中的字符关系,实现中文地址命名实体识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江邦盛科技股份有限公司;杭州邦睿科技有限公司,其通讯地址为:310012 浙江省杭州市西湖区西斗门路3号天堂软件园D幢17层ABCD座;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励