电子科技大学詹思瑜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种主动学习的基数估计模型的适应性提高方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116523029B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310549244.4,技术领域涉及:G06N3/091;该发明授权一种主动学习的基数估计模型的适应性提高方法及装置是由詹思瑜;唐以恒;陈爱国;秦科;卢国明;段贵多设计研发完成,并于2023-05-16向国家知识产权局提交的专利申请。
本一种主动学习的基数估计模型的适应性提高方法及装置在说明书摘要公布了:本发明涉及一种数据库查询优化器领域,提供了一种主动学习的基数估计模型的适应性提高方法及装置。主旨在于解决训练时的数据分布和实际数据分布可能不一致,导致基数估计模型过时,将产生不准确的基数估计的问题。主要方案包括模型训练,用静态数据及查询语句训练原始的基数估计模型;模型更新,在数据变化后,若数据分布变化超过阈值,则使用动态数据更新原始基数估计模型,使用主动学习策略选择更有用的查询语句标注以更新原始基数估计模型,否则沿用原始基数估计模型;用动态数据测试更新后基数估计模型的性能。
本发明授权一种主动学习的基数估计模型的适应性提高方法及装置在权利要求书中公布了:1.一种主动学习的基数估计模型的适应性提高方法,其特征在于,包括以下具体步骤: 步骤1:模型训练,用静态数据及查询语句训练原始的基数估计模型; 步骤2:模型更新,在数据变化后,若数据分布变化超过阈值,则使用动态数据更新原始基数估计模型,使用主动学习策略选择更有用的查询语句标注以更新原始基数估计模型,否则沿用原始基数估计模型; 步骤2中具体包括以下具体步骤: 步骤2.1:数据变化检测: 首先计算数据表中各个列之间的Spearman秩相关系数,在得到相关系数矩阵后,将其中所有元素取绝对值,然后计算平均值,即为整体的平均相关系数,用来表示整体相关性;如果数据变化后相比数据变化前,整体相关性增长或减少超过可接受的阈值,则触发基数估计模型更新步骤,即进入步骤2.2,否则沿用原始基数估计模型,跳到步骤2.3; 步骤2.2:查询语句选择: 使用基于池的主动学习策略,基于查询语句的信息性、代表性、多样性,从过时的查询池中挑选部分最有价值的查询语句,即对模型更新更有用的查询,具体如下: 查询语句的信息性是通过计算模型改变期望从未标记的数据中选择最有价值的样本进行标记来实现,首先对于每个查询语句i,通过计算损失函数对模型参数的二阶偏导数来计算其Hessian矩阵,该矩阵描述了目标函数的局部曲率信息;然后对于每个查询语句i,通过计算损失函数对原始基数估计模型参数的一阶偏导数来计算其梯度向量的标准差,该标准差描述了模型对该样本输出结果的不确定性;最后对每个查询语句i计算其EMC值,EMC值是该样本的Hessian矩阵和梯度向量标准差之和,计算方式如下: , 其中,是Hessian矩阵的迹,是梯度向量的标准差,上式中越大,则说明该样本标记后模型预测结果的变化越大,对查询池中所有样本的EMC值进行排序,选择EMC值最大的若干个查询语句; 查询语句的代表性标准指的是优先选择分布稠密的样本; 查询样本的多样性标准指的是所选样本尽可能分散在整个输入空间中,因此对查询池中的所有样本进行-s聚类,其中指的是特征维度,然后选择最接近每个聚类中心的样本,迭代上述操作直到得到预定数量的查询语句; 步骤2.3:查询语句合并、去重,将步骤2.2得到的查询语句合并,并去除其中重复的查询语句; 步骤2.4:基数标签生成,将步骤2.3得到的查询语句在步骤2.1变化后的动态数据上实际执行,得到真实基数结果; 步骤3:模型测试,用动态数据测试更新后基数估计模型的性能。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励