Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 招联消费金融有限公司毛宇获国家专利权

招联消费金融有限公司毛宇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉招联消费金融有限公司申请的专利一种样本数据分布优化方法、装置和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116150376B

龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310204314.2,技术领域涉及:G06F16/35;该发明授权一种样本数据分布优化方法、装置和存储介质是由毛宇;黄凯;徐伟;林昊;邬稳;邓文强设计研发完成,并于2023-02-22向国家知识产权局提交的专利申请。

一种样本数据分布优化方法、装置和存储介质在说明书摘要公布了:本申请实施例提供一种样本数据分布优化方法、装置和存储介质。该方法中包括了一种端到端的优化方法,自适应寻找过拟合风险高的目标关键词,并作为优化目标,进行下游的负样本采样任务中;其次,还构建多意图语料类内和类间关键词共现关系的改进词频‑逆文档频率的计算方法,以明确表示多意图语料类内和类间关键词共现关系;最后,通过对目标关键词进行处理和包含目标关键词的新的训练文本的筛选逻辑,得到匹配的负样本采样方法,以新增负样本语料来优化训练文本分布。采用本申请实施例,能够在数据源头对整个建模进行过拟合优化。

本发明授权一种样本数据分布优化方法、装置和存储介质在权利要求书中公布了:1.一种样本数据分布优化方法,其特征在于,所述方法包括: 获取第一训练样本集,其中,所述第一训练样本集包括多个训练文本,所述多个训练文本中的每个训练文本均标注了意图; 提取所述第一训练样本集中的多个训练文本的关键词,得到关键词集合; 获取所述关键词集合中的第一关键词在第二训练样本集中的词频和逆文档频率,其中,所述第一关键词为所述关键词集合中的任一关键词,所述第二训练样本集为与所述第一关键词所属的训练文本对应的意图相同的训练文本构成的集合;所述词频为所述第二训练样本集中包含所述第一关键词的训练文本的数量,占所述第二训练样本集的比例,所述逆文档频率用于表征所述第一关键词在所述第二训练样本集中出现的频率; 根据所述关键词集合中每个关键词的词频和逆文档频率,计算得到每个关键词对应于各个意图的集中度得分,所述关键词对应于任一意图的集中度得分用于表征所述关键词在包含所述任一意图的训练文本中的集中程度; 根据所述关键词集合中的每个关键词对应于各个意图的集中度得分,确定目标关键词; 对包含所述目标关键词的未标注意图的第三训练样本集进行意图标注,以得到负样本集; 根据所述负样本集对所述第一训练样本集进行处理,以得到更新后的第一训练样本集,其中,所述第一训练样本集用于训练得到多分类模型,所述模型用于预测输入的样本的意图分类, 其中,所述对包含所述目标关键词的未标注意图的第三训练样本集进行意图标注,以得到负样本集,包括: 构建未标注的第三训练样本集,所述第三训练样本集包括多个训练样本; 在所述未标注的第三训练样本集中搜索包含所述目标关键词的训练文本; 将所述训练文本输入至根据所述第一训练样本集训练的多分类模型中进行预测; 对所述多分类模型的预测结果进行核验,以得到负样本集; 所述逆文档频率的计算公式为: 其中,df为逆文档频率,m为意图的数量,表示第j个意图的训练文本总数,表示在第j个意图中包含关键词的训练文本个数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人招联消费金融有限公司,其通讯地址为:518000 广东省深圳市南山区科技园科兴科学园A4栋18楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。