科大讯飞股份有限公司丁杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉科大讯飞股份有限公司申请的专利文本去重方法及相关装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120144548B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510618518.X,技术领域涉及:G06F16/174;该发明授权文本去重方法及相关装置是由丁杰;汪锦想;黄勰敏;潘青华设计研发完成,并于2025-05-14向国家知识产权局提交的专利申请。
本文本去重方法及相关装置在说明书摘要公布了:本申请公开了一种文本去重方法及相关装置。该文本去重方法包括:分别对当前源计算节点中的各文本进行一次编码,得到各文本的文本编码值;将各文本的文本编码值划分为若干类编码集合,其中,同一类编码集合内各文本编码值之间的相似度,高于不同类编码集合间不同文本编码值的相似度;针对各类编码集合,对当前源计算节点中编码集合对应的文本进行去重,其中,需去重的文本是基于需去重的文本与所在编码集合中的其他文本的文本编码值之间的相似度确定的。上述方案,能够提升去重效率。
本发明授权文本去重方法及相关装置在权利要求书中公布了:1.一种文本去重方法,其特征在于,包括: 分别对当前源计算节点中的各文本进行一次编码,得到各所述文本的文本编码值,所述当前源计算节点所在的通信系统为目标通信系统,所述目标通信系统中的若干源计算节点均包含若干文本,所述当前源计算节点为所述若干源计算节点中的其中一个节点; 将所述各文本的文本编码值划分为若干类编码集合,其中,同一类所述编码集合内各所述文本编码值之间的相似度,高于不同类所述编码集合间不同所述文本编码值的相似度; 针对各类所述编码集合,对所述当前源计算节点中所述编码集合对应的文本进行去重,其中,需去重的文本是基于所述需去重的文本与所在编码集合中的其他文本的文本编码值之间的相似度确定的,包括: 将至少一类所述编码集合作为第一类编码集合,对于各所述第一类编码集合,将各所述源计算节点中的所述第一类编码集合进行组合,并计算组合后的所述第一类编码集合中各所述文本编码值之间的相似度,将组合后的所述第一类编码集合中所述相似度满足相似度要求的文本编码值对应的文本作为重复文本组,从所述重复文本组中选出至少一个文本作为第一待去重文本,删除位于所述当前源计算节点的第一待去重文本,并通知非本地文本所在的源计算节点删除所述非本地文本,其中,所述非本地文本为不位于所述当前源计算节点的第一待去重文本;和或, 将至少一类所述编码集合作为第二类编码集合,对于各所述第二类编码集合,将所述当前源计算节点的所述第二类编码集合发给所述目标通信系统中的相似度计算节点,以由所述相似度计算节点组合各所述源计算节点的所述第二类编码集合,并基于组合后的所述第二类编码集合中各所述文本编码值之间的相似度,确定组合后的所述第二类编码集合对应的第二待去重文本,并通知所述第二待去重文本所在的源计算节点删除所述第二待去重文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人科大讯飞股份有限公司,其通讯地址为:230088 安徽省合肥市高新开发区望江西路666号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。