中国科学院深圳先进技术研究院刘康获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院深圳先进技术研究院申请的专利一种面向机器学习的少数类样本增强方法、系统、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121009954B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511541848.X,技术领域涉及:G06N3/094;该发明授权一种面向机器学习的少数类样本增强方法、系统、设备及存储介质是由刘康;陈蔚宜;郑坚泽;杨之乐设计研发完成,并于2025-10-27向国家知识产权局提交的专利申请。
本一种面向机器学习的少数类样本增强方法、系统、设备及存储介质在说明书摘要公布了:本发明属于机器学习领域,公开了一种面向机器学习的少数类样本增强方法、系统、设备及存储介质,CTGAN通过对抗训练精确拟合少数类主体数据的联合分布特性,保障生成样本的统计合理性;大语言模型突破传统插值限制,探索潜在长尾特征组合,弥补分布拟合的覆盖盲区。二者互补生成后,硬约束模块强制校验特征合法性、类型匹配及跨列逻辑一致性,消除无效样本;统一评分器以原始数据集锚定真实分布,通过阈值筛选保留高置信样本,最后经全列去重确保样本独特性。采用本方法显著提升了合成样本的多样性与有效性,突破单一生成技术的瓶颈;系统化的质量管控流程实现规模、质量与多样性三者的动态平衡,使增强样本更贴合下游分类任务需求。
本发明授权一种面向机器学习的少数类样本增强方法、系统、设备及存储介质在权利要求书中公布了:1.一种面向机器学习的少数类样本增强方法,其特征在于,包括: 获取仅含少数类样本的原始训练数据集,所述少数类样本包括预设数量的数值特征; 将原始训练数据集输入至预构建的CTGAN生成模型,生成第一候选少数类样本;将原始训练数据集输入至预构建的大语言模型,生成第二候选少数类样本;其中,所述CTGAN生成模型用于拟合少数类样本的主体分布并保持列间依赖与联合统计特性,所述大语言模型用于探索少数类样本的长尾模式,以实现少数类样本长尾模式覆盖与主体分布拟合之间的互补; 将生成的第一候选少数类样本和第二候选少数类样本分别施加预设定的硬约束条件;所述硬约束条件包括特征取值合法范围校验、特征类型校验、整数特征取整校验及跨列逻辑一致性校验; 基于统一评分器,结合原始数据集抽取的参考样本锚定真实分布,依据预设评分阈值及排序规则分别对施加有硬约束条件的第一候选少数类样本和第二候选少数类样本进行筛选; 将筛选后得到的第一候选少数类样本和第二候选少数类样本参照原始训练数据集分别进行全列去重,以剔除重复样本; 将经过全列去重的第一候选少数类样本和第二候选少数类样本进行聚合,以得到少数类增强样本集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院深圳先进技术研究院,其通讯地址为:518055 广东省深圳市南山区深圳大学城学苑大道1068号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励