中移(苏州)软件技术有限公司;中国移动通信集团有限公司王冶获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中移(苏州)软件技术有限公司;中国移动通信集团有限公司申请的专利一种确定文本相似度的方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115374775B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110548240.5,技术领域涉及:G06F18/22;该发明授权一种确定文本相似度的方法、装置、设备及存储介质是由王冶设计研发完成,并于2021-05-19向国家知识产权局提交的专利申请。
本一种确定文本相似度的方法、装置、设备及存储介质在说明书摘要公布了:本申请实施例公开了一种确定文本相似度的方法、装置、设备及存储介质,该方法包括:对文本进行关键词项提取和词向量转换,得到文本的词向量集合;对文本的词向量集合进行权重分层,得到至少两层权重系数;根据文本的至少两层权重系数对词向量集合进行加权平均,得到文本向量;根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。如此,将关键词项的词向量进行分层,按一定规则分配权重,使得重要的关键词项所在的层占据更大权重,反之权重越小,这样对词向量集合进行加权平均运算后得到的文本向量更准确,从而利用文本向量在计算文本相似度时能提高文本相似度的精确度。
本发明授权一种确定文本相似度的方法、装置、设备及存储介质在权利要求书中公布了:1.一种确定文本相似度的方法,其特征在于,所述方法包括: 获取文本数据集;其中,所述文本数据集中包括至少两个文本; 对所述文本数据集中的文本进行关键词项提取和词向量转换,得到文本的词向量集合; 对所述文本的词向量集合进行权重分层处理,得到文本的至少两层权重系数; 根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算,得到文本的文本向量; 根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度; 其中,所述对所述文本的词向量集合进行权重分层处理,得到文本的至少两层权重系数,包括: 对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理,得到每个词向量的第二权重值; 利用所述文本数据集中每个文本的每个词向量的第二权重值,构建文本-词项权重矩阵; 将每个文本的词向量集合进行N等分,得到N层词向量子集合;其中,N取大于等于2的整数; 根据所述文本-词项权重矩阵和预设的权重分层策略,得到每层词向量子集合的权重系数;其中,所述权重分层策略包括:根据所述文本数据集中每个文本的第k个词向量子集合中所有词向量对应的第二权重值得到第k个词向量子集合的权重系数;其中,k取大于等于1且小于等于N的整数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中移(苏州)软件技术有限公司;中国移动通信集团有限公司,其通讯地址为:215163 江苏省苏州市高新区昆仑山路58号1幢中移软件园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。