腾讯科技(深圳)有限公司陈玉博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉腾讯科技(深圳)有限公司申请的专利模型训练方法、文本处理方法、装置及电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115130542B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210456716.7,技术领域涉及:G06F18/214;该发明授权模型训练方法、文本处理方法、装置及电子设备是由陈玉博;刘康;赵军;曹鹏飞;闭玮设计研发完成,并于2022-04-27向国家知识产权局提交的专利申请。
本模型训练方法、文本处理方法、装置及电子设备在说明书摘要公布了:本申请实施例提供了一种模型训练方法、文本处理方法、装置及电子设备,涉及机器学习及自然语音处理领域。该方法包括:获取第一样本集和第二样本集,根据第一样本集对初始的事理关系识别模型进行训练,得到第一事理关系识别模型,确定第一事理关系识别模型对于每个第二样本文本预测的不确定性程度;根据各个第二样本文本对应的不确定性程度筛选多个第三样本文本;基于多个目标样本文本对第一事理关系识别模型进行迭代训练,直至满足训练停止条件,得到训练好的第二事理关系识别模型。本申请实施例缓解标注数据不足问题,并且训练好的第二事理关系识别模型具有更高的准确性和鲁棒性。
本发明授权模型训练方法、文本处理方法、装置及电子设备在权利要求书中公布了:1.一种模型训练方法,其特征在于,包括: 获取第一样本集和第二样本集,所述第一样本集包括多个标注有标签的第一样本文本,所述第二样本集包括多个未标注标签的第二样本文本,所述第一样本文本的标签表征了所述第一样本文本中包含的事件信息间的事理关系; 根据所述第一样本集对初始的事理关系识别模型进行训练,得到第一事理关系识别模型,确定所述第一事理关系识别模型对于每个所述第二样本文本预测的不确定性程度; 根据所述第二样本集中各个第二样本文本的不确定程度确定将每个第二样本文本作为第三样本文本的概率,根据各个第二样本文本对应的概率从各个第二样本集中随机抽取多个第二样本文本作为第三样本文本,其中,在每次随机抽取一个第二样本文本后,将抽取的第二样本文本从所述第二样本集中移除,根据所述第二样本集中剩余的第二样本文本对应的不确定性程度重新计算剩余的第二样本文本对应的概率; 将带有标签的各个第一样本文本和各个第三样本文本作为目标样本文本,基于多个所述目标样本文本对第一事理关系识别模型进行迭代训练,直至满足训练停止条件,得到训练好的第二事理关系识别模型; 其中,所述基于多个所述目标样本文本对第一事理关系识别模型进行迭代训练,包括: 对于多个目标样本文本中的每个第三样本文本,确定所述第三样本文本的第二识别结果的离散程度; 对所有第三样本文本对应的离散程度求平均值,得到平均离散程度,再基于所述平均离散程度得到所有第三样本文本相同的权重; 将各个第三样本文本输入至第一事理关系识别模型,分别获得每个第三样本文本的预测识别结果; 对于每个第三样本文本,以所述第三样本文本的预测识别结果与对应标签确定初始的第二目标值,以所述第三样本文本对应的权重对所述初始的第二目标值进行加权,获得第二目标值;所述第三样本文本的标签为第一事理关系识别模型输出的第三样本文本中包含的事件信息间的事理关系信息; 根据各个第三样本文本的第二目标值,获得所述第一事理关系识别模型的训练目标值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励