山东大学许信顺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利基于共享知识挖掘的增量多语言文本识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120561293B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511061575.9,技术领域涉及:G06F16/35;该发明授权基于共享知识挖掘的增量多语言文本识别方法及系统是由许信顺;刘晓倩;罗昕;陈振铎设计研发完成,并于2025-07-31向国家知识产权局提交的专利申请。
本基于共享知识挖掘的增量多语言文本识别方法及系统在说明书摘要公布了:本发明公开基于共享知识挖掘的增量多语言文本识别方法及系统,涉及文本检测识别技术领域,训练得到特定于当前语言的特色识别器;将回放集和当前语言的数据集送入所有特色识别器,基于所有特色识别器的预测一致性,挖掘语言之间潜在的共享字符和共享单词;基于共享字符和共享单词,语言域判别器挖掘增量语言之间的依赖性关系,得到字符级别和单词级别的所属语言概率,并基于其对各个特色识别器的预测概率分布进行加权,得到关系加强后的字符级别和单词级别概率分布;对关系加强后的单词级别概率分布作argmax操作,选取概率最大值所对应的索引作为最终识别结果。可以减轻增量学习过程中对旧语言知识的遗忘,从而提高文本识别器的持续学习能力。
本发明授权基于共享知识挖掘的增量多语言文本识别方法及系统在权利要求书中公布了:1.基于共享知识挖掘的增量多语言文本识别方法,其特征在于,包括: 获取当前语言的数据集,并基于所述数据集训练一个特定于当前语言的特色识别器; 基于先前所有已处理语言的数据集构造回放集;获取先前所有已处理语言的特色识别器并冻结参数;将回放集和当前语言的数据集送入所有特色识别器,得到预测结果;基于所有特色识别器的预测一致性,以自监督的方式挖掘语言之间潜在的共享字符和共享单词; 基于所述共享字符和共享单词,语言域判别器挖掘增量语言之间的依赖性关系,得到字符级别和单词级别的所属语言概率; 基于共享字符和共享单词的所属语言伪标签,对于共享实例,利用多标签的Max-margin损失对语言域判别器进行优化: 其中,表示多标签的Max-margin损失,、表示索引,表示边距超参数,表示共享字符的所属语言伪标签,表示共享单词的所属语言伪标签,表示样本在时刻字符属于第种语言的概率,表示样本在时刻字符属于第种语言的概率,表示单词属于第种语言的概率,表示单词属于第种语言的概率; 对于新的实例,利用标准的交叉熵对语言域判别器进行优化: 其中,表示字符和单词级别的交叉熵损失,表示语言域判别器,表示样本,表示新字符的所属语言标签,表示新单词的所属语言标签,表示字符级别的所属语言概率,表示单词级别的所述语言概率; 基于所述字符级别和单词级别的所属语言概率,对各个特色识别器的预测概率分布进行加权,得到关系加强后的字符级别和单词级别概率分布; 对所述关系加强后的单词级别概率分布作argmax操作,选取概率最大值所对应的索引作为最终识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250000 山东省济南市高新区舜华路1500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。