北京火山引擎科技有限公司孟令军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京火山引擎科技有限公司申请的专利用于评测大模型的模拟数据生成方法、装置、介质及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120596930B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511094894.X,技术领域涉及:G06F18/214;该发明授权用于评测大模型的模拟数据生成方法、装置、介质及设备是由孟令军;李然设计研发完成,并于2025-08-05向国家知识产权局提交的专利申请。
本用于评测大模型的模拟数据生成方法、装置、介质及设备在说明书摘要公布了:一种用于评测大模型的模拟数据生成方法、装置、介质及设备,涉及计算机技术领域和大模型技术领域,该用于评测大模型的模拟数据生成方法包括:获取待处理数据集,待处理数据集中包括业务场景下收集到的业务数据;确定待处理数据集中的同源字段,同源字段具有相同的上游字段;对同源字段的字段值采用相同的数据处理规则进行处理,以得到同源字段的模拟字段值,模拟字段值用于支持所述大模型的评测,这样,可以确保模拟字段值不包含业务信息,且具有相同的上游字段的同源字段的字段值具备一致性的约束条件,使得生成的模拟字段值能够贴近业务场景下的业务数据,从而在避免数据泄漏的情况下为大模型的评测提供贴近真实业务场景的数据。
本发明授权用于评测大模型的模拟数据生成方法、装置、介质及设备在权利要求书中公布了:1.一种用于评测大模型的模拟数据生成方法,其特征在于,包括: 获取待处理数据集,其中,所述待处理数据集中包括业务场景下收集到的业务数据,所述待处理数据集是基于上游数据集衍生得到的,所述待处理数据集称为所述上游数据集的下游数据集,所述上游数据集中的字段可以称为所述下游数据集中对应字段的上游字段; 确定所述待处理数据集中的同源字段,其中,所述同源字段具有相同的上游字段; 对所述同源字段的字段值采用相同的数据处理规则,对所述同源字段的字段值进行改写处理,以得到所述同源字段的模拟字段值,其中,所述模拟字段值用于支持所述大模型的评测; 所述模拟数据生成方法还包括: 对所述待处理数据集中的字段所对应的字段值进行数据分析,以得到所述字段所对应的第一数据分析结果,所述第一数据分析结果用于描述对应所述字段所对应的字段值的特征; 对所述待处理数据集的模拟数据集中的模拟字段所对应的模拟字段值进行数据分析,以得到所述模拟字段所对应的第二数据分析结果,所述第二数据分析结果用于描述对应所述模拟字段所对应的模拟字段值的特征,所述模拟数据集中的模拟字段与所述待处理数据集中的字段是一一对应的,所述模拟数据集中的模拟字段所对应的模拟字段值是所述待处理数据集中对应字段的模拟字段值,所述数据分析从统计性维度、相关性维度、趋势性维度和异常性维度中的至少一种维度进行分析得到数据分析结果; 根据所述待处理数据集中所述字段的所述第一数据分析结果与所述模拟数据集中对应所述模拟字段的所述第二数据分析结果,确定所述待处理数据集与所述模拟数据集之间的相似度; 在所述相似度小于预设相似度阈值的情况下,对所述模拟数据集中的目标模拟字段进行定位,其中,所述目标模拟字段所对应的所述第二数据分析结果与对应所述第一数据分析结果之间的差异大于预设差异; 更新所述目标模拟字段和与所述目标模拟字段属于所述同源字段的模拟字段在所述模拟数据集中所对应的模拟字段值,以得到更新后的模拟数据集; 确定所述更新后的模拟数据集与所述待处理数据集之间的相似度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京火山引擎科技有限公司,其通讯地址为:100190 北京市海淀区紫金数码园4号楼13层1309;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励