天津易泰科技发展有限公司;中国电子口岸数据中心天津分中心张成喆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉天津易泰科技发展有限公司;中国电子口岸数据中心天津分中心申请的专利基于NLP的海关单据文本目标特征提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121579993B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610100232.7,技术领域涉及:G06F18/213;该发明授权基于NLP的海关单据文本目标特征提取方法及系统是由张成喆;王玉楠;殷晓萍;刘凯熙;张程;曹玮;杨璐;郭振彤设计研发完成,并于2026-01-26向国家知识产权局提交的专利申请。
本基于NLP的海关单据文本目标特征提取方法及系统在说明书摘要公布了:本申请涉及数据处理技术领域,公开了一种基于NLP的海关单据文本目标特征提取方法及系统。该方法包括:对海关单据文本进行序列标注获得初始字段集合及字段缺失向量;将字段缺失向量与结构类型特征向量匹配确定字段空间注意力模板;根据注意力模板筛选候选文本块生成补全字段;将初始字段与补全字段构建语义关联图进行约束验证与迭代修正后输出目标字段集合。本申请提高了变化格式和复杂格式海关单据的字段提取准确率和逻辑一致性。
本发明授权基于NLP的海关单据文本目标特征提取方法及系统在权利要求书中公布了:1.一种基于NLP的海关单据文本目标特征提取方法,其特征在于,所述方法包括: 步骤S1:对海关单据文本进行序列标注处理,获得初始字段集合及各字段的提取置信度,根据必填字段在高置信度字段中的存在情况生成字段缺失向量; 步骤S2:将所述字段缺失向量与预存的结构类型特征向量进行相似度匹配,结合已提取字段的空间位置与结构模板的分布匹配度计算综合得分,由综合得分最高的结构类型确定字段空间注意力模板; 步骤S3:根据所述字段空间注意力模板中缺失字段的概率分布热力图筛选候选文本块,对候选文本块计算空间响应值、格式匹配度与语义匹配度的加权补全得分,由最高补全得分的文本块生成补全字段; 步骤S4:将初始字段集合与所述补全字段构建为语义关联图,基于知识图谱嵌入计算字段间的约束违反标记,根据约束违反类型对置信度最低的字段节点进行上下文扩展或关键词修正,经迭代验证后输出目标字段集合,包括:将所述初始字段集合与补全字段作为节点构建语义关联图,建立商品名称与HS编码间的语义一致性约束边、数量单位金额间的数值逻辑约束边、原产地与税率间的贸易协定约束边、收货人与贸易方式监管方式间的规则约束边;基于预构建的海关商品知识图谱计算商品名称向量与HS编码向量的关系距离,当关系概率低于0.15时标记约束边违反,基于历史平均单价与标准差计算数量金额的隐含单价偏离度,当偏离度超过2.5倍标准差时标记约束边违反;选取参与违反约束边且置信度最低的字段节点作为重提取目标,针对商品名称缺失通过依存句法分析在上下文中扩展修饰成分,针对HS编码错误通过知识图谱关系向量计算候选编码并在原文本中进行关键词匹配修正;对修正后的字段重新执行约束验证,当约束违反数量减少或迭代次数达到3次时终止迭代,输出目标字段集合。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津易泰科技发展有限公司;中国电子口岸数据中心天津分中心,其通讯地址为:300384 天津市滨海新区华苑产业园区开华道3号华科创业中心1006室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励