Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学杨沐昀获国家专利权

哈尔滨工业大学杨沐昀获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学申请的专利一种基于大模型数据增强的机器翻译自动后编辑方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117556833B

龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311332992.3,技术领域涉及:G06F40/47;该发明授权一种基于大模型数据增强的机器翻译自动后编辑方法是由杨沐昀;张瑞;朱聪慧;徐冰;曹海龙;赵铁军设计研发完成,并于2023-10-16向国家知识产权局提交的专利申请。

一种基于大模型数据增强的机器翻译自动后编辑方法在说明书摘要公布了:本发明是一种基于大模型数据增强的机器翻译自动后编辑方法。本发明涉及机器翻译自动后编辑和数据增强技术领域,本发明通过领域筛选和正向翻译生成大量可用于训练的伪数据,借助大语言模型生成额外的辅助机器翻译译文,解决自动后编辑任务面临的数据稀缺问题,再将数据增强后得到的所有数据传入跨语言预训练模型mBART中进行训练,有效提升机器翻译译文质量。本发明所提出的方法合理利用了大语言模型的语言能力,能简单高效地解决自动后编辑任务面临的数据稀缺问题,同时该方法能直接适用于多语言对上的自动后编辑任务,而不必训练多个机器翻译模型用于不同语言对上的数据增强。

本发明授权一种基于大模型数据增强的机器翻译自动后编辑方法在权利要求书中公布了:1.一种基于大模型数据增强的机器翻译自动后编辑方法,其特征是:所述方法包括以下步骤: 步骤1:收集用于伪数据生成的双语平行语料; 步骤2:根据双语平行语料和真实训练集数据,训练用于判别双语平行语料所属领域的分类器; 步骤3:从双语平行语料中筛选出与真实训练集数据所属领域最接近的部分,作为伪数据生成的基础; 步骤4:采用正向翻译的方法,将领域筛选得到的双语平行语料构造成自动后编辑任务所需的三元组;包括:将筛选出的双语平行语料中的汉语全部传入训练好的基于Transformer的神经机器翻译模型,将模型输出的英语译文作为机器翻译译文,原双语平行语料中的汉语作为原文,英语作为后编辑译文,最终获得质量高并和真实训练集数据属于相似领域的机器翻译自动后编辑伪数据;三元组为双语平行语料中的汉语和英语,以及机器翻译的译文; 步骤5:将生成的机器翻译自动后编辑伪数据和真实训练集数据合在一起,并将这些数据中的原文均传给大语言模型,获取对于每一条原文的译文,将这些获得的译文作为辅助机器翻译译文,与原本的三元组合并得到四元组,用于后续模型训练; 步骤6:上采样真实训练集数据,与伪数据合并成为最终的训练集数据; 步骤7:对训练集数据进行分词与子词切分预处理,再将处理完毕的原文、机器翻译译文和辅助机器翻译译文拼接后作为mBART架构的编码器侧输入,将处理完毕的后编辑译文作为mBART架构的解码器侧输入,对mBART模型进行训练,完成自动后编辑任务。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。