神州医疗科技股份有限公司白焜太获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉神州医疗科技股份有限公司申请的专利一种大模型检索增强生成中关于文档切分效果评估的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119761377B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411868956.3,技术领域涉及:G06F40/30;该发明授权一种大模型检索增强生成中关于文档切分效果评估的方法是由白焜太;王蕾;周文仲;杨雅婷;许娟;史文钊设计研发完成,并于2024-12-18向国家知识产权局提交的专利申请。
本一种大模型检索增强生成中关于文档切分效果评估的方法在说明书摘要公布了:本发明公开了一种大模型检索增强生成中关于文档切分效果评估的方法,涉及文档切分技术领域,方法包括:获取待评估文档的进行切分处理后得到的切分对,按照顺序将切分对输入至通用语义模型中,得到每个切分对对应的目标评价值,基于评价值与效果等级对应关系,确定所有目标评价值对应的目标效果等级;通用语义模型的训练过程具体为:对训练文档进行切分得到至少两个原始切块;对任一原始切块进行随机切分,得到预设个数的切片;按照语义是否存在相关性进行标注,得到n组训练样本;计算任一组训练样本对应的目标相关性分数以及目标分离性分数,确定该训练样本对应的评价值。本发明可以反馈每个文档对应的分割效果的评分也可以有助于辅助文档切分。
本发明授权一种大模型检索增强生成中关于文档切分效果评估的方法在权利要求书中公布了:1.一种大模型检索增强生成中关于文档切分效果评估的方法,其特征在于,包括: 获取待评估文档的进行切分处理后得到的切分对,按照顺序将所述切分对输入至通用语义模型中,得到每个切分对对应的目标评价值,基于评价值与效果等级对应关系,确定所有目标评价值对应的目标效果等级; 所述通用语义模型的训练过程具体为: 获取训练文档,对所述训练文档进行切分得到至少两个原始切块; 对任一原始切块进行随机切分,得到预设个数的切片; 按照语义是否存在相关性,对任一两个原始切块、任一两个切片以及任一原始切块与任一切片的组合进行标注,得到n组训练样本; 计算任一组训练样本对应的目标相关性分数以及目标分离性分数,基于相关性分数权重以及分离性分数权重,确定该训练样本对应的评价值; 对待评估文档进行切分的过程具体为: 第一种、按照段落,对待评估文档进行段落切分,对于切分后得到的任一段落,按照句号或分号,对该段落进行语句切分,实时判断切分得到的语句的语句长度,并与语句对应的序号标识进行关联记录,生成语句长度记录表,确定不同类别的文档对应的长度切分范围,基于当前待评估文档的类别,确定目标长度切分范围,按照目标长度切分范围,对语句长度记录表中的语句长度进行等级划分,确定每个等级对应的序号标识,按照该等级对应的划分个数,对在该等级下的每个序号标识对应的语句按照划分个数进行切片划分,得到每个序号标识对应的切片结果; 其中,确定不同类别的文档对应的长度切分范围的过程具体为: 通过调取历史数据库中不同类别的历史文档,确定每个类别的历史文档对应切片结果,对切片结果进行整合,确定两个切片结果对应的历史语句长度,三个切片结果对应的历史语句长度;并根据统计结果,确定每个类别的文档对应的生成切分长度对应表; 针对切分长度对应表的使用,通过确定待评估文档的类别,调用对应类别的切分长度对应表,在切分长度对应表中可以得到不同个数切片对应的长度范围,即上文提及的目标长度切分范围,实时比较语句长度对应的目标长度切分范围,并根据对应的切分个数,完成对于该语句长度对应的语句的切分; 第二种、按照段落,对待评估文档进行段落切分,确定固定切分长度,根据固定切分长度对任一段落进行切分得到至少两个切块;需要进一步说明的是,按照固定切分长度进行切分的过程中,若存在在切分过程中,切分得到的切块中存在逗号或顿号时,需重新进行切分,即,按照逗号或顿号进行切分,并在切分后,以逗号或顿号后的第一个文字内容开始重新按照固定切分长度进行切分;对于切分得到的每个结果,按照第一种方式中的切片方式进行切片处理; 基于评价值与效果等级对应关系,确定所有目标评价值对应的目标效果等级的过程具体为: 根据所有目标评价值以及每个切分对对应的目标相关性分数,确定所有目标评价值的总和,即总评价值,确定所述总评价值在所述评价值与效果等级对应关系中对应的目标效果等级; 确定所有目标评价值的总和的过程具体为: 其中,score为总评价值,rel_scorei为第i组训练样本对应的目标相关性分数,weight_scorei为第i组训练样本对应的评价值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人神州医疗科技股份有限公司,其通讯地址为:100080 北京市海淀区颐和园路2号未来科技大厦主楼12层1201室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。