Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 湘潭大学唐欢容获国家专利权

湘潭大学唐欢容获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉湘潭大学申请的专利基于自标签与prompt的文档级低资源场景的要素抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116049437B

龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310018831.0,技术领域涉及:G06F16/36;该发明授权基于自标签与prompt的文档级低资源场景的要素抽取方法是由唐欢容;左辉阳;欧阳建权设计研发完成,并于2023-01-06向国家知识产权局提交的专利申请。

基于自标签与prompt的文档级低资源场景的要素抽取方法在说明书摘要公布了:本发明提出一种基于自标签与prompt的文档级低资源场景的要素抽取方法,采用自标签方法对标签核心词进行构建进行命名实体识别,采用prompt方法进行关系抽取,解决文档级低资源场景要素抽取标签核心词构建困难、解码速度慢、性能不佳的的问题;本发明提出的方法适用于司法领域、旅游领域、电商领域、电游领域、社交领域、金融领域。

本发明授权基于自标签与prompt的文档级低资源场景的要素抽取方法在权利要求书中公布了:1.基于自标签与prompt的文档级低资源场景的要素抽取方法,该方法包括以下步骤: 1Bert-NER模型的构建:使用爬虫获取专业领域数据,对数据统计TF-IDF构建专业领域数据基础词典,通过知识图谱对专业领域数据基础词典中的实体进行查询,检索其临近边“关系”与节点“实体”,将未在词典中的实体与关系添加进词典,得到专业领域数据最终词典,利用专业领域数据最终词典和大规模数据无监督预训练得到Bert-NER老师模型,再取一个Bert模型作为Bert-NER学生模型,利用此Bert-NER老师模型与Bert-NER学生模型对大规模无标记数据进行自训练克服专业领域低资源的问题,迭代得到最终的Bert-NER模型; 2词频token的获得:利用远程知识库远程监督作为无标记数据的注释,分别统计文档与bert辅助模型生成结果entity与relation_trigger的词频,将其融合得到综合词频,对每个标签综合词频top-k的元素进行编码并融合得到该标签的词频token; 3自标签token的获得:针对专业领域标签层次化显著的特点,设计一种专业领域分层标签,将文档entity与relation_trigger的标签数据转化为自然语言形式,再根据标注样式转化为自然语言注释形式,获得自标签token;具体为: 3.1对文档数据具有的要素标签类别C={C1,C2,C3,...,Cm-1,Cm}:m为要素标签类别的个数, 对于专业领域标签层次化显著的特点,设计一种专业领域分层标签,对于父级标签Ci,其包含多个子标签Ci1,Ci2,Ci3,...,Cik-1,Cik,那么我们则将其标签设定为Pos_tag+Sup_Type_tag+Type_tag; 其中Sup_Type_tag为零层或一层或多层; 3.2对要素标签类别拆解后得到三部分Pos_tag、Sup_Type_tag和Type_tag; 3.3先对Pos_tag、Sup_Type_tag和Type_tag分别进行自然语言转化,得到Pos_pre_word、Sup_Type_pre_word和Type_pre_word; 3.4再根据标注样式转化为自然语言注释形式,得到Pos_word、Sup_Type_word和Type_word; 3.5将Pos_word、Sup_Type_word和Type_word输入Bert辅助模型得到自标签token: GC=Bert[Pos_word]+Bert[Sup_Type_word]+Bert[Type_word]; 其中n为Pos_tag、Sup_Type_tag和Type_tag的总数; 4标签的对应token在上述模型中的放入:将标签补充进Bert-NER模型词表,再融合自标签token与词频token,将其作为标签token作为Bert-NER词表补充的标签的对应token放入模型; 5Entity集和Relation_trigger集的获得:针对专业领域文档级的应用场景,将NER任务重新定义为面向要素的语言模型分类任务,显著加快解码速度,并对跨句实体关系语义进行有效吸收,使用Bert-NER模型对文档进行NER抽取,获得Entity集和Relation_trigger集; 6语料数据的大规模扩充:针对专业领域低资源的应用场景,设计用于RE-MRC任务的prompt模板,利用Entity集和Relation_trigger集基于prompt构造模板获得RE-MRC任务训练语料,利用prompt构造模板对语料数据进行大规模扩充以克服专业领域低资源的问题;使用RE-MRC任务训练语料得到Bert-RE模型; 7要素的抽取:利用步骤6得到的Bert-RE模型对文档进行RE抽取,得到relation集,完成文档级低资源场景的要素抽取任务。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湘潭大学,其通讯地址为:411105 湖南省湘潭市湘潭大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。