北京理工大学冯冲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种利用半自回归融合领域术语的低资源机器翻译方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114492468B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111385350.0,技术领域涉及:G06F40/58;该发明授权一种利用半自回归融合领域术语的低资源机器翻译方法是由冯冲;许达;沙九设计研发完成,并于2021-11-22向国家知识产权局提交的专利申请。
本一种利用半自回归融合领域术语的低资源机器翻译方法在说明书摘要公布了:本发明涉及一种利用半自回归融合领域术语的低资源机器翻译方法,属于自然语言处理机器翻译技术领域。本发明通过融合特定领域术语的低资源机器翻译方法,使用外部知识引导解码器,结合自回归与非自回归的解码方式,在引入先验知识的同时不牺牲解码效率,满足垂直领域的翻译需求。在半自回归的解码器中,将待生成的译文序列进行多组分块,块内采用自回归方式,块外采用非自回归方式。在推理阶段,分别通过删除历史译文中错误的词、插入先验知识术语约束词、预测合理的译文词并保留机制,从额外提供的约束中提取信息,进而融合外部先验知识。本发明不仅能够灵活融入外部先验知识,适应多领域不同翻译模型,相比自回归翻译方式大幅度提升了解码速率。
本发明授权一种利用半自回归融合领域术语的低资源机器翻译方法在权利要求书中公布了:1.一种利用半自回归融合领域术语的低资源机器翻译方法,其特征在于,包括以下步骤: 步骤1:构建基于半自回归模型的解码方法,实现以半自回归方式生成序列; 步骤1构建的基于半自回归模型,在编码器端与Transformer保持一致,在解码器端则通过半自回归方式进行解码; 解码器在生成译文时,对译文进行分块并同步解码: 一条译文序列S被分割为不同的块S1,S2,…,Sk,在块内,通过自回归解码方式,结合源文信息、先验知识和已生成历史译文来预测下一个词,每阶段解码器为不完整的块生成一个相应的词或符号,如式1所示: 其中,Py|x表示条件概率,x表示输入序列,y表示输出序列;表示第i块中第t个词或符号; 为第i块已生成历史译文;L为块的总长度,K表示块的个数; 计算第i块Si中预测的词或符号如式2所示: 其中,V表示词汇表,BOS和EOS分别表示起始符和结束符;P表示对应表达式的概率分布;argmax表示求使得该概率最大的参数集合; 当时,表示Si块开始解码,允许插入约束术语库; 当时,表示Si块未完成,允许继续解码; 当Si=EOS时,表示Si块已完成,停止解码; 当整个解码过程中预测的词都为EOS、历史信息不变且达到最大长度时,表示此序列解码已完成; 步骤2:构建融合特定领域的术语库,分别通过删除历史译文中错误的词、插入先验知识术语约束词、预测合理的译文词并保留,用于将外部知识融入到译文句子中; 步骤3:使用基于句子级别的知识蒸馏方法,在训练中利用自回归模型的提示,让非自回归模型学习自回归模型隐变量和注意力的分布; 翻译模型采用贪婪搜索算法,通过并行解码生成多个候选译文,然后挑选概率最大的译文序列,作为最终的译文。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。