北京网聘信息技术有限公司时迎超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京网聘信息技术有限公司申请的专利一种提升职类预测样本质量的方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117009336B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310985479.8,技术领域涉及:G06F16/215;该发明授权一种提升职类预测样本质量的方法和装置是由时迎超;王杨设计研发完成,并于2023-08-07向国家知识产权局提交的专利申请。
本一种提升职类预测样本质量的方法和装置在说明书摘要公布了:本发明公开了一种提升职类预测样本质量的方法和装置,包括:S1:用双向链表提升数据质量,使用聚类方法对数据进行清洗;S2:依次利用预训练打标模型和向量模型以及分类模型将输入处理进行打标,向量和分类处理,并将职类树知识图谱提前融入模型中;S3:使用多任务训练方式,降低模型困惑度。本发明的提升职类预测样本质量的方法中,使用双向链表提升数据质量,使用聚类方法对数据进行清洗数据,增强数据准确率,预训练大模型融入层次特征,提升迭代效率,采用多任务joiner训练方式,降低困惑度,使用业务教据训练向量模型、篇章向量模型以及职类预测模型,丰富了向量的表征,也提升了职类预测样本的质量。
本发明授权一种提升职类预测样本质量的方法和装置在权利要求书中公布了:1.一种提升职类预测样本质量的方法,其特征在于,包括: S1:用双向链表提升数据质量,使用聚类方法对数据进行清洗; S2:依次利用预训练打标模型和向量模型以及分类模型将输入处理进行打标,向量和分类处理,并将职类树知识图谱提前融入模型中;具体包括: S21:利用transformer提取长文本全文特征; S22:使用批处理层,将长文本转换为短文本并行计算提取序列特征; S23:使用query‑title数据训练双塔结构,使用title塔进行计算提供向量; S24:采集职位或者工作经历的标题与描述信息,平铺送入模型; S25:利用预训练向量模型BERT对输入进行编码,得到篇章向量; S26:对篇章向量进行softmax多分类并计算损失Jθ; ; 其中,i表示第i个篇章向量样本,j表示该第i个篇章向量样本的第j个类别,T表示属性数;m表示篇章向量样本个数,k表示类别数;每个样本预测到的概率为P向量的长度为k;y为篇章向量的真实类别; 假定有m个篇章向量的样本,即[x1,x2,...xm],每个样本n个属性,即xi=[a1,a2,...an],共分为k类,yi=[0,0,...1...0],第i个位置是1,其余是0; 每类的概率Pk=Pyk=1,且ΣΡ=1; 用另一种方式来表示Pk=1{y=k}Pk; Pj表示篇章向量样本x被分为第j类的概率;其中,分子上θ的下标是j表示篇章向量的类别,θ是矩阵,; 而逻辑回归是个向量,因为多分类相当于是多个分类器,每个分类器有自己的模板,所以该矩阵大小为类别数X属性数;T表示属性个数,k类别个数,每行代表一个篇章向量的类别的模板,就是上面公式中的θj; S27:输出结果为当前输入对应的职类的概率分布,从中选出概率最大职类进入后处理流程,对重点职类后处理后作为最终的输出; S28:依据新的三级职类信息对职类标签进行抽取,依据调整后的职类信息和多父级职类划分,依据行业特征对职类标签进行抽取,再将工作说明、履历表的分析结果与不同职类进行关联; S29:Bert向量化并降维;具体包括: S291:通过NLP技术对工作说明和履历表中的词链进行向量化处理; S292:考虑到行业特性分别从不同的维度分别进行向量化处理,包括行业上下文、章节、局子三个层次,然后依据历史数据样本,对不同维度的向量化结果进行评估,标注不同的权重; S3:使用多任务训练方式,降低模型困惑度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京网聘信息技术有限公司,其通讯地址为:100102 北京市朝阳区阜荣街10号5层五层商业第02-31单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励