云增科技(江苏)有限公司宋捷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉云增科技(江苏)有限公司申请的专利一种蒸馏算法的多模态数据质量评估方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120806058B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511255664.7,技术领域涉及:G06N3/096;该发明授权一种蒸馏算法的多模态数据质量评估方法是由宋捷设计研发完成,并于2025-09-04向国家知识产权局提交的专利申请。
本一种蒸馏算法的多模态数据质量评估方法在说明书摘要公布了:本发明公开了一种蒸馏算法的多模态数据质量评估方法。本发明通过将数据质量调整系数纳入模型训练中,强化了模型度数据质量、数据合规的敏感度,提高了模型的训练效率,增强了模型的专业性;通过将学生模型的训练成果通过知识回流反哺给教师模型,从而能够较好的优化教师模型,并通过优化后的教师模型蒸馏出新的学生模型,形成协同进化的正循环机制,从而可以不断优化教师模型、学生模型,提高未来数据质量评估的准确性;且通过蒸馏得到了学生模型,实际部署到客户数据端,用于数据质量评估,其消耗资源有限,同时作为本地化部署,不需要通过互联网传递数据,解决了数据传输量过大,数据质量评估效率低下的问题。
本发明授权一种蒸馏算法的多模态数据质量评估方法在权利要求书中公布了:1.一种蒸馏算法的多模态数据质量评估方法,其特征在于:包括以下步骤: 步骤1、构建教师模型Mt; 步骤2、构建学生模型Ms,并基于教师模型Mt蒸馏得到学生模型参数集合φ; 步骤3、将学生模型连接到客户的数据库中,评估客户数据质量,并使用客户数据训练学生模型参数集合,得到数据质量评分、以及学生模型参数残差,具体步骤如下: 3.1、将学生模型部署于边缘设备,采用学生模型对客户数据质量进行评估,得到数据质量评分score,具体为: 基于预测置信度标准差及数据质量主要指标共同计算评分,具体公式如下: 其中,β1为预测置信度标准差的权重的权重;xg为客户数据特征向量集;Mg为客户数据个数;ci为单次预测置信区度;为Mg次预测平均置信度;λg为经实验优化的缩放因子;I2为质量评分; 3.2、使用客户数据训练学生模型参数集合,微调学生模型,得到φt+1,具体公式如下: 其中,φt+1为经过自监督训练所产生的参数残差;α2为自监督训练系数,具体取值为α2=0.7;为经过温度软化后的教师模型输出概率分布、学生模型输出概率分布的KL散度;Lcon为自监督训练损失函数;Nb为单次训练的样本数;xgi为客户数据集中第i个数据的特征向量;xgk为同批次客户数据集中第k个数据的特征向量k≠i;为随机掩码生成的客户数据的特征向量;为不同随机掩码生成的客户数据的特征向量;为随机掩码生成的客户数据经学生模型计算后的输出;为不同随机掩码生成的客户数据经学生模型计算后的输出;为同批次其他客户数据经学生模型计算后的输出;为样本排除指示器;为随机掩码生成的样本经学生模型计算后输出、不同随机掩码生成的样本,经学生模型计算后输出的向量内积;||.||为L2范数;Tc为调节系数,具体取值为Tc=0.1; 3.3、基于φt+1,计算学生模型参数残差△φt,具体公式如下: △φt=φt+1-φt; 其中,φt+1为经过自监督训练后的学生模型参数集; 步骤4、将数据质量评分和学生模型参数残差知识回流反哺给教师模型,优化教师模型,并将数据质量评分百分化,作为本次评估的结果,包括以下步骤: 4.1、学生模型新学习到的未百分化的数据质量评分和学生模型参数残差知识回流反哺给教师模型,形成知识回流,修正教师模型参数,得到教师模型新的参数集θk+1,具体公式如下: 其中,B为跨模型知识对齐张量;在Bl,j,k中,l为学生模型层遍历索引、j为隐藏维度特征索引、k为教师注意力头遍历索引; θk为教师模型在微调后,已经经历了k次知识回流后的参数集;θk+1为教师模型新的参数集,是经过本次k+1次知识回流后的教师模型参数集; ε1为融合残差率;ε2为质量衰减率;W为权重矩阵,且W={Wout,Wa,Wg};Wa为注意力对齐矩阵;Wout为教师参数空间转换矩阵;Wg为知识筛选门控矩阵;⊙为Hadamard积;Υ·为知识筛选门控函数; σ·为Sigmoid激活函数,且 其中,x*为输入的向量;e为自然常数;vec·为张量向量化变换;×3为张量-矩阵乘积;表示维度为b1的单位矩阵; 4.2、建立重新微调阈值,将本轮数据质量评分score*记为得到本批数据质量评估平均得分,具体公式如下: 其中,t为之前已经经过了t批数据质量评估;τ为本批一共经过了τ轮数据质量评估,取τ=10;t≤itre≤t+τ; 4.3、将数据质量评分的分值变换为百分制,并将结果输出,作为本次数据质量评估的结果,具体公式如下: score=100×1-score*0.3+15·score*。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人云增科技(江苏)有限公司,其通讯地址为:210000 江苏省南京市江北新区沿江街道泰冯路104号256-9办公室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励