南京航空航天大学李娟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京航空航天大学申请的专利一种纵向联邦学习中基于模型精度预估的参与者选择方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119026671B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411520613.8,技术领域涉及:G06N3/098;该发明授权一种纵向联邦学习中基于模型精度预估的参与者选择方法是由李娟;叶方伟;陈斌;张亚楠;吴蔚凡设计研发完成,并于2024-10-29向国家知识产权局提交的专利申请。
本一种纵向联邦学习中基于模型精度预估的参与者选择方法在说明书摘要公布了:本发明公开了一种纵向联邦学习中基于模型精度预估的参与者选择方法,所述方法基于纵向联邦学习框架,根据加密互信息和样本交集数量预估纵向联邦学习模型的性能,并拟合获得模型精度的最佳预估函数,使用组合特征值编码实现隐私计算互信息算法,并通过PCA降维和特征离散化手段将其嵌入到纵向联邦学习的加密样本对齐过程中,实现隐私保护任务;本发明还包括基于贪心策略实现参与者选择算法,以实现最大化测试样本性能收益,据此完成模型预测任务的参与者分配。另外,本发明通过拟合的预估精度函数实现基于贪心算法的参与者选择策略,在推理阶段为各个参与者高效分配模型预测任务,最大化联合训练的性能收益。
本发明授权一种纵向联邦学习中基于模型精度预估的参与者选择方法在权利要求书中公布了:1.一种纵向联邦学习中基于模型精度预估的联邦参与者选择方法,其特征在于,所述方法基于纵向联邦学习框架,根据加密互信息和样本交集数量预估纵向联邦学习模型的性能,并拟合获得模型精度的最佳预估函数,使用组合特征值编码实现隐私计算互信息算法,并通过PCA降维和特征离散化手段将其嵌入到纵向联邦学习的加密样本对齐过程中,实现隐私保护任务;所述方法还包括基于贪心策略实现联邦参与者选择算法,以实现最大化测试样本性能收益,据此完成模型预测任务的联邦参与者分配;该方法具体包括如下步骤:1对训练样本数量、特征与标签的互信息进行相关性分析,包括将二者在公开数据集上进行训练,验证纵向联邦学习模型准确率与训练样本数量以及互信息的正相关关系;2基于步骤1中的分析结果构建模型精度预估函数,并将任务发布者的数据进行拆分组合以模拟纵向联邦学习过程,得到相应的表示互信息和模型精度关系的数据点以及训练样本数量和估计误差关系的数据点;接着使用一次函数拟合模型精度与互信息I的关系再使用二次函数进一步拟合训练样本数量n与精度估计误差的关系校正并微调基于互信息的精度估计误差,进而拟合出互信息和训练样本数量对纵向联邦学习模型精度的联合效应;对于模型精度预估函数采用如下公式进行拟合: 表示所有训练特征与任务标签之间的互信息I和训练样本数量n这两个因素预估的模型精度;3降低实际性能A与步骤2中模型精度预估函数所计算的估计性能之间的残差,以实现模型性能预估函数拟合误差的修正,其步骤包括:31计算每个样本的绝对误差,得到后计算得到的值,将误差进行区间划分,统计每个区间内误差出现的次数,最后将各区间内的误差次数除以总次数来计算概率分布;32基于真实联邦训练得到的数据点重复步骤2中的模型精度拟合操作,并同样得到一个拟合误差的概率分布;33在每一轮真实的纵向联邦训练过程结束后计算估计误差,从而得到一个越来越精确的误差均值偏移量err,然后按照以下公式对估计性能做修正,使得平均估计误差接近0: 式中,Fr即为最终得到的模型精度预估函数,此函数在纵向联邦训练开始之前由任务发布者根据自身数据以及部分的历史训练数据拟合得出;4隐私计算参与训练的特征与任务标签的互信息,计算过程包括:41任务发布者和联邦参与者k各自将其各个维度的特征进行离散化处理,将每个特征维度的特征值的数据范围划分为b个等距区间,编号为1-b,对于每一个浮点数类型的特征,根据其特征值计算其所落在的区间编号,然后用对应的编号值代替连续的浮点数值作为离散化后的特征值;42基于Diffie-Hellman加密算法的隐私交集技术实现任务发布者与联邦参与者k进行加密样本对齐;43加密样本对齐过程中通过传输一个组合特征值编码,用于隐私计算联邦参与者与任务发布者共享的特征与标签的互信息,该组合特征值编码计算包括:设联邦参与者的数据集经过PCA降维后有dk维的特征,特征值离散化分散到bk个区间中,离散化后的值与原特征值的映射函数关系为bin,假设样本记录格式为: 式中,表示样本第1到dk维特征的特征值,联邦参与者k的第i个对齐样本的特征值组合编码用如下式子表示: 由此可得,对于任意一种特征取值组合,所对应的组合特征值编码都是唯一确定的;5任务发布者结合参与方发来的特征值编码以及自己的特征值编码和标签列计算得到下式中的各个N·的值,N·表示给定变量值下的数据样本个数,从而进一步计算出联合特征与标签的互信息估计值: 对于每一对匹配的样本,任务发布者根据匹配样本的组合特征值编码Fik和自身数据的组合特征值编码Fi以及相应的标签y进行统计,记录出现的频数,得到计算互信息所需要的NFik,Fi,y以及NFik,Fi的值,NFik,Fi,y表示特征编码为Fik和Fi且标签为y的样本数,6根据任务发布者的训练集D和测试集T,将目标转换为最大化测试集合T中所有样本获得的预期模型性能[Ui],具体包括:根据步骤3得出的模型精度预估函数和估计误差的分布情况,期望模型最大化问题通过重新建模表示如下: Qk=fIk,nk+ek,k∈Sek~Nμ,σ2,k∈Snk≤|D∩Dk|Tk=T∩Dk 其中,任务发布者为O,其训练预算为B,联邦参与者的集合为S,对于S中的每个联邦参与者k,其样本集合Dk与任务发布者的测试集合的交集为Tk=T∩Dk,Tk中的样本同时具有k和任务发布者的特征维度,对于这些样本能够使用任务发布者和联邦参与者k合作训练的模型Mk执行推理预测,Mk的估计性能为Qk,变量nk是决策变量,对应联邦参与者k带来的训练样本的个数,当nk越大的时候,预估的模型性能fIk,nk越大,同时联邦参与者的k的样本在预算B中就会占有更多的配额,且测试集T中的测试样本i所获得的最佳推理性能为所有Qk中的最大值;按照步骤1到5计算每个联邦参与者k与任务发布者合作训练的模型Mk的估计精度Qk,将所有联邦参与者按照估计精度Qk从高到低排序,若有模型Mk的精度低于任务发布者仅使用自身特征维度数据训练出的模型M0的精度,则将其从选择范围中剔除,然后从预估精度最高的联邦参与者开始,依次尝试向其购买训练数据,直到累计购买的数据量超过预算限制B或者没有更多的联邦参与者可供选择为止;最后根据购买情况,告知被选中联邦参与者其需要提供的训练数据量,开展纵向联邦学习训练;7考虑在训练前使用步骤6中的贪心策略选择出联邦参与者后,存在若干个联邦参与者会得到若干个纵向联邦学习模型的问题,在模型预测推理阶段需要进行最佳的模型任务分配,按照联邦参与者的优先级排序给各个联邦参与者分配相应测试集样本的预测任务,然后将对测试数据的预测结果与真实标签进行分析比较,计算模型正确分类的样本数占总样本数的比例,得到纵向联邦学习模型的预测准确率,具体包括:利用模型精度预估函数代入加密互信息和样本交集数量求出各个联邦参与者与任务发布者合作得到的纵向联邦学习模型的精度估计值后,通过对模型精度的估计值大小排序来赋予各个联邦参与者相应的优先级,其中模型预估精度越大的联邦参与者优先级越高;对于任务发布者的测试集中的每个样本,系统会检查哪些联邦参与者拥有与该样本相关的记录,并依据优先级来分配预测任务;对于测试集中的每个样本ID,系统会按优先级顺序依次检查每个联邦参与者是否拥有与该样本ID相对应的记录,如果某个联邦参与者拥有该样本ID对应的记录,系统就会为该联邦参与者标记为“1”,否则标记为“0”;如果只有一个联邦参与者拥有该样本的记录,那么任务发布者将选择使用与这个联邦参与者合作训练出的模型对该样本进行预测;如果多个联邦参与者都拥有与该样本ID对应的记录,选择与优先级最高的联邦参与者合作训练的模型来负责该样本的预测任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:210016 江苏省南京市秦淮区御道街29号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。