北京云量数盟科技有限公司辛苗获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京云量数盟科技有限公司申请的专利一种针对面向强化学习奖励的逆向工程的评估方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115495972B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110679697.X,技术领域涉及:G06F30/27;该发明授权一种针对面向强化学习奖励的逆向工程的评估方法及系统是由辛苗设计研发完成,并于2021-06-18向国家知识产权局提交的专利申请。
本一种针对面向强化学习奖励的逆向工程的评估方法及系统在说明书摘要公布了:本发明属于强化学习安全技术领域,具体地说,涉及一种针对面向强化学习奖励的逆向工程的评估方法,该方法包括:根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类,计算二者之间的标准互信息;根据预先设定的聚类个数范围,聚类排序范围和污染轨迹比例范围,生成标准互信息序列;将标准互信息输入至预先建立的四阶张量模型,得到评估结果;根据评估结果,来评估逆强化学习得到的奖励聚类。
本发明授权一种针对面向强化学习奖励的逆向工程的评估方法及系统在权利要求书中公布了:1.一种针对面向强化学习奖励的逆向工程的评估方法,该方法包括: 根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类,计算二者之间的标准互信息; 根据预先设定的聚类个数范围,聚类排序范围和污染轨迹比例范围,生成标准互信息序列; 将标准互信息输入至预先建立的四阶张量模型,得到评估结果; 根据评估结果,来评估逆强化学习得到的奖励聚类; 其中,所述根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类,计算二者之间的标准互信息;其具体过程为: 根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类计算二者之间的互信息 其中, 其中,为中的第σ个类别;为中的第ε个类别;S'为真实的状态空间; 根据计算得到的二者之间的互信息计算二者之间的标准互信息 其中, 其中,所述逆强化学习得到的奖励聚类的具体过程为: 对实时获取的真实奖励聚类按照每个元素的大小,进行降序排序,根据预先选择的top聚类个数oj,获取选择后的奖励聚类集合 得到对应的真实状态空间 根据污染比例mz={m1,m2,…,m|m|},利用逆强化学习算法得到对应的奖励聚类集合ru ,z,在状态空间S'中进行聚类; 具体地,将奖励聚类初始化: 根据给定的逆强化学习得到的奖励集合和预先设定的聚类个数yi,采用聚集嵌套算法,对给定的逆强化学习得到的奖励集合进行聚类; 逆强化学习得到的奖励集合中的每一个元素视为一个类别,在第i轮迭代中,当前所选择的聚类个数为yi,计算逆奖励集合中任选的两个类别间的距离 其中,是两个奖励与之间的欧几里得距离;为中的第x个类别;为中的第y个类别; 遍历中所有类别,并计算任意两个类别之间的欧几里得距离,并按照从小到大的顺序对计算的多个距离进行排序; 选择类别距离最小的两个类别进行合并, New_Cu=Cα u∪Cβ u 其中,Cα u,Cβ u为本轮中得到的距离Dal最小的两个类别;New_Cu为本轮合并后的逆聚类子集合; 将New_Cu补入中,得到合并后的逆奖励集合,再遍历该合并后的逆奖励集合中的所有类别,计算任意两个类别之间的距离,并按照从小到大的顺序对计算的多个距离进行排序; 采用上述合并过程,对类别距离最小的两个类别进行合并,得到该轮合并后的聚类子集合,并将其补入合并后的逆奖励集合,重复上述过程,直至合并后的逆奖励集合中的聚类个数达到当前所选择的聚类个数yi后,聚类结束, 得到逆强化学习得到的奖励聚类
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京云量数盟科技有限公司,其通讯地址为:100012 北京市朝阳区水岸南街16号N次方420;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。