南京大学黄书剑获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种缩减机器翻译数据库规模的方法、存储介质及电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114970570B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210566109.6,技术领域涉及:G06F40/58;该发明授权一种缩减机器翻译数据库规模的方法、存储介质及电子设备是由黄书剑;朱文昊;吕云哲;郑鑫;张建兵;陈家骏设计研发完成,并于2022-05-23向国家知识产权局提交的专利申请。
本一种缩减机器翻译数据库规模的方法、存储介质及电子设备在说明书摘要公布了:本发明公开了一种缩减机器翻译数据库规模的方法、存储介质及电子设备,所述方法包括以下步骤:构建数据库,通过对数据库中各条目的掌握情况,将所有的条目进行分类;根据局部空间内条目的分布状况,为不同的条目确定知识边界值;分析各条目的种类和对应的知识边界值,将符合条件的条目添加到候选集合中;从候选集合里按照预先设定的比例随机丢弃一定条目,得到最终缩减后的数据库。本发明从通用领域NMT能力的角度出发,基于局部准确性丢弃数据库中的条目,在尽可能缩减数据库规模的同时,也保证了缩减后数据库的质量,可解释性更强;缩减后的数据库可以放入任何kNN‑MT框架中使用,可以对不同语言,不同领域的数据库进行规模缩减。
本发明授权一种缩减机器翻译数据库规模的方法、存储介质及电子设备在权利要求书中公布了:1.一种缩减机器翻译数据库规模的方法,其特征在于,包括以下步骤: S1:构建数据库,通过对所述数据库中各条目的掌握情况,将所有的条目进行分类; S2:根据局部空间内条目的分布状况,为不同的条目确定知识边界值; S3:分析各条目的种类和对应的知识边界值,将符合条件的条目添加到候选集合中; S4:从所述候选集合里按照预先设定的比例随机丢弃一定条目,得到最终缩减后的数据库; S1中,所述构建数据库,通过对所述数据库中各条目的掌握情况,将所有的条目进行分类具体包括以下步骤: S11:数据库的具体构建过程如下:将双语平行句对x,y输入通用领域NMT模型中,NMT模型会将源语言句子x和目标语言句子中第t个词之前句子片段y<t作为整体编码成一个高维向量形式的隐层状态hx,y<t,其中h表示从文本到高维向量的映射,这样,隐层状态hx,yt和目标语言句子的第t个词yt就构成了一个条目; 当NMT模型处于隐层状态hx,y<t时应该生成答案词语yt,将平行语料库中各个位置的隐层状态和答案词语以键-值对的形式保存下来,即可完成数据库的构建; S12:判断yt和是否一致,将数据库中的知识条目分为掌握的条目known和没有掌握的条目unknown两类,具体如下: S2中,所述根据局部空间内条目的分布状况,为不同的条目确定知识边界值具体包括以下步骤: S21:确定局部空间,所述局部空间Nk为数据库中的条目key,val的k近邻,具体表示为: S22:根据所述局部空间内条目的分布状况,为不同的条目确定知识边界值,所述知识边界值,具体表示为:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210000 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。