苏州元脑智能科技有限公司秦朝阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉苏州元脑智能科技有限公司申请的专利文本语义分块方法、装置、设备、介质及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120031046B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510517731.1,技术领域涉及:G06F40/30;该发明授权文本语义分块方法、装置、设备、介质及产品是由秦朝阳设计研发完成,并于2025-04-23向国家知识产权局提交的专利申请。
本文本语义分块方法、装置、设备、介质及产品在说明书摘要公布了:本申请公开了一种文本语义分块方法、装置、设备、介质及产品,通过对滑动窗口内的各个子句的嵌入向量进行加权求和,能反映窗口内子句的整体语义特征,减少噪声影响,计算相邻滑动窗口的加权平均嵌入向量之间的相似度,能更准确地识别文档中语义连续的部分,基于目标变异系数对相似度数组进行调整,使得不同文档的分段的效果保持相对稳定,根据目标变异系数和分段信息动态调整相似度阈值,使得分段过程能够适应不同文档的结构和内容,分段信息指示分段中包含子句的数量范围,使分段结果更加符合实际需求,避免了过长或过短的分段。根据动态相似度阈值划分目标相似度数组,将对应的子句确定为待处理文档的分段,提升文本分块的准确性和合理性。
本发明授权文本语义分块方法、装置、设备、介质及产品在权利要求书中公布了:1.一种文本语义分块方法,其特征在于,所述方法包括: 获取待处理文档对应的各个滑动窗口的加权平均嵌入向量;任一滑动窗口的加权平均嵌入向量为对该窗口内所述待处理文档的各个子句的嵌入向量进行加权求和得到的; 获取所述待处理文档的相似度数组;所述相似度数组包括:各个相邻的滑动窗口的加权平均嵌入向量之间的相似度; 计算所述相似度数组的标准差和均值; 根据所述相似度数组的标准差与均值的比值,计算所述相似度数组的变异系数; 基于所述相似度数组的均值和标准差以及目标变异系数,对所述相似度数组中的各个数值进行计算,获取目标相似度数组; 根据所述目标变异系数和分段信息,确定动态相似度阈值;所述分段信息用于指示分段中包含子句的数量范围;所述动态相似度阈值为用户根据所述目标变异系数和所述分段信息选取的合理数值; 根据所述动态相似度阈值对所述目标相似度数组进行划分,得到多个子相似度数组; 分别将各个子相似度数组对应的子句确定为所述待处理文档的分段; 所述基于所述相似度数组的均值和标准差以及所述目标变异系数,对所述相似度数组中的各个数值进行计算,获取目标相似度数组,包括: 根据调整公式计算所述目标相似度数组中与所述相似度数组对应的各个数值: 其中,表示目标相似度数组中调整后的第个数值,表示相似度数组中调整前的第个数值,表示目标变异系数,表示所述相似度数组的均值,表示所述相似度数组的标准差。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人苏州元脑智能科技有限公司,其通讯地址为:215000 江苏省苏州市吴中经济开发区综保区经一路1号8幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。