深圳市智慧城市科技发展集团有限公司;深圳市智城软件技术服务有限公司王刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市智慧城市科技发展集团有限公司;深圳市智城软件技术服务有限公司申请的专利一种长文本的切分方法、装置、计算机设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121212125B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511767874.4,技术领域涉及:G06F40/205;该发明授权一种长文本的切分方法、装置、计算机设备及介质是由王刚;周梓晔;李晓辉设计研发完成,并于2025-11-28向国家知识产权局提交的专利申请。
本一种长文本的切分方法、装置、计算机设备及介质在说明书摘要公布了:本申请公开了一种长文本的切分方法、装置、计算机设备及介质,该切分方法通过预设的多维度规则库对所述待切分的长文本进行初步切分,能够更灵活地适应不同质量和格式的原始文本数据。并且,按照组合窗口参数将初步切分得到的文本单元进行组合,使得切分的粒度可以根据组合窗口参数进行调整,能够保证切分后的文本单元之间具有更紧密的语义联系。而且,利用Reranker模型基于内积获取离群值作为切分点,这种方式基于语义关系来确定切分点,相比于传统的切分方式,更能考虑到文本之间的语义关联。最后,利用LLM模型进行进一步的语义切分,能够更好地保证切分后的文本在语义上的完整性,避免了因语义聚类不准确而破坏文本单元之间语义连接性的问题。
本发明授权一种长文本的切分方法、装置、计算机设备及介质在权利要求书中公布了:1.一种长文本的切分方法,其特征在于,包括: 获取待切分的长文本,利用预设的多维度规则库对所述待切分的长文本进行初步切分,得到多个文本单元; 按照组合窗口参数将多个所述文本单元进行组合,得到多个组合文本单元; 利用Reranker模型分别计算相邻两个组合文本单元间的内积,通过各个内积的分布获取离群值作为切分点,并按照所述切分点进行粗切分,得到多个粗切分文本; 利用LLM模型对每个粗切分文本进行语义切分,得到最终的文本切分结果; 所述利用Reranker模型分别计算相邻两个组合文本单元间的内积之前,按如下方式对Reranker模型进行设计: 采用句子单元编码塔和组合特征融合塔作为所述Reranker模型的关键结构并在所述Reranker模型内部构建三维内积矩阵,其中,所述句子单元编码塔使用RoBERTa-Large预训练模型,所述组合特征融合塔引入位置嵌入和上下文注意力机制,所述三维内积矩阵包括语义维度内积、句法维度内积以及领域维度内积。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市智慧城市科技发展集团有限公司;深圳市智城软件技术服务有限公司,其通讯地址为:518107 广东省深圳市福田区华富街道莲花一村社区皇岗路5001号深业上城(南区)T1栋12层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励