中国人民解放军战略支援部队信息工程大学席耀一获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军战略支援部队信息工程大学申请的专利基于过滤和文本增强的跨语言摘要数据集构建方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116304004B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310250756.0,技术领域涉及:G06F16/34;该发明授权基于过滤和文本增强的跨语言摘要数据集构建方法及系统是由席耀一;潘航宇;葛磊;曹蓉;南煜;周会娟;王博;陈宇飞;徐金铭;尤惠彬设计研发完成,并于2023-03-16向国家知识产权局提交的专利申请。
本基于过滤和文本增强的跨语言摘要数据集构建方法及系统在说明书摘要公布了:本发明涉及跨语言处理领域,特别涉及一种基于过滤和文本增强的跨语言摘要数据集构建方法及系统,通过利用过滤策略从字符和语义角度对原始单语摘要数据集进行过滤,并通过翻译系统将过滤后的数据转换为跨语言摘要数据集;并使用自注意力机制和掩码语言模型对跨语言摘要数据集进行动态同义词替换并生成新的跨语言摘要文本数据。本发明能够综合、全面地去除低质量的单语摘要样本,极大提升数据集质量,且实现不平行文本的相似性度量,且在保证质量的前提下增大了数据规模,能够以较低成本获得质量高且规模大的跨语言摘要数据集。
本发明授权基于过滤和文本增强的跨语言摘要数据集构建方法及系统在权利要求书中公布了:1.一种基于过滤和文本增强的跨语言摘要数据集构建方法,其特征在于,包含: 利用无关词统计、关键词统计和语义度量策略分别从字符和语义角度对原始单语摘要数据集进行分析和过滤,并通过翻译系统将过滤后的数据转换为跨语言摘要数据集;其中,利用语义度量策略对原始单语摘要数据集进行分析过滤,包含:首先,利用BERT词嵌入模型来获取原始单语摘要数据集中文本和参考摘要的单词表示序列;然后,利用BERT-Whiteing方法将单词表示序列转化为各向同性,并利用余弦相似度从语义角度衡量参考摘要与输入文本的相似度,并过滤掉相似度小于第三预设阈值的样本对; 使用自注意力机制和掩码语言模型对跨语言摘要数据集进行动态同义词替换并生成新的跨语言摘要文本数据,其中,使用RoBERTa模型的自注意力并结合上下文信息选择跨语言摘要样本对的文本的单词进行屏蔽,得到屏蔽后的文本序列;利用RoBERTa模型的掩码语言模型预训练任务对屏蔽后的文本序列的掩码进行预测,得到新文本,以通过将新文本与参考摘要进行组合,生成新的跨语言摘要样本对。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军战略支援部队信息工程大学,其通讯地址为:450000 河南省郑州市高新区科学大道62号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。