Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京大学戴新宇获国家专利权

南京大学戴新宇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京大学申请的专利一种基于马氏距离和对比学习的新意图数据识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114547264B

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210151423.8,技术领域涉及:G06F40/35;该发明授权一种基于马氏距离和对比学习的新意图数据识别方法是由戴新宇;陈昱;欧阳亚文;吴震;王雷设计研发完成,并于2022-02-18向国家知识产权局提交的专利申请。

一种基于马氏距离和对比学习的新意图数据识别方法在说明书摘要公布了:本发明提供了一种基于马氏距离和对比学习的新意图数据识别方法,本发明在分类模型的训练过程中引入对比学习来获取更完整的样本特征,并基于样本的特征向量使用马氏距离来作为打分函数,来防止特征经过分类层之后有所损失,有助于模型提升识别新意图样本的能力。

本发明授权一种基于马氏距离和对比学习的新意图数据识别方法在权利要求书中公布了:1.一种基于马氏距离和对比学习的新意图数据识别方法,其特征在于,包括以下步骤: 步骤1,输入训练集中的所有样本和人工标注的标签;训练新意图模型,事先确定意图标签体系,体系里的语料和标签作为已知意图,用于模型学习;采用SNIPS数据集,SNIPS数据集是一个语音助手语料转化为文字后得到的数据集,共有7个类别,分别为播放音乐、询问天气、添加到播放列表、书籍评分、预定餐厅、搜索创造力的作品和搜索电影信息;将搜索创造力的作品和添加到播放列表视作新意图样本;对于每条数据都标注了槽位类型,包括歌手名字和歌曲名称; 步骤2,为训练集中的已知意图样本构建正样本和负样本,用于对比学习训练; 步骤3,结合对比学习训练意图分类模型,通过分类模型来获取样本表示; 步骤4,计算类别中心; 步骤5,计算样本到类别中心的最小马氏距离,并判定是否为新意图样本; 步骤2包括: 步骤2-1,识别所有输入样本的槽位,获取样本拥有的槽位类型; 步骤2-2,将训练集中拥有相同槽位类型的样本进行两两配对,即样本x1= T1s1=v1,s2=v2,样本x2=T2s1=v3,s2=v4,其中,si代表第i个槽位类型,vi代表第i个槽位值,Ti代表第i个句子模版; 步骤2-3,为样本x1构造正样本为样本x2构造正样本为样本x1构造负样本为样本x2构造负样本 步骤3包括: 步骤3-1,输入原始训练集D={x,y}和对比学习训练集D′=x,x+,x-; 步骤3-2,意图识别模型进行前向计算; 步骤3-3,计算样本的预测概率分布与真实标签之间的交叉熵CE; 步骤3-4,计算损失函数值对于每个模型参数的梯度,使用反向传播算法更新模型参数; 步骤3-5,使用验证集评估模型性能; 步骤3-6,判断模型性能是否提升,如果有提升则返回步骤3-2继续迭代训练,否则执行步骤3-7; 步骤3-7,结束训练模型; 步骤3-1包括:原始训练集D用于分类任务的训练,x={w1,w2,…,wn}为原始样本,包含了n个单词w1,w2,…,wn,y为对应的意图标签; 对比学习训练集D‘用于对比学习的训练,x+,x-分别为原始样本x对应的正、负样本;其中,意图样本标签进行独热编码,记为集合其中m为已知意图数目,yi表示第i个意图标签,中当前正样本对应意图标签的位置为1,其余位置值为0;输入的原始样本按照4:1的比例划分为训练集和验证集,训练集输入模型用于训练; 步骤3-2包括:获取单词wi的词嵌入ei,即样本x′={e1,e2,…,en}; 使用门控循环单元GRU网络编码输入原始样本x′,即将每个词嵌入输入一个门控单元中,得到每个词的输出,为每个词状态的隐层表示,即{h1,h2,..,hn}=GRUe1,e2,…,en,其中hi表示第i个词ei的输出,GRU代表将一系列词嵌入输入门控循环单元网络中,即ht=zt⊙ht-1+1-zt⊙get,ht-1,θ,zt∈[0,1]为更新门,zt=σWzxt+uzht-1+bz,Wz,Uz和bz为可训练参数;函数get,ht-1,θ=tanhWhet+Uhrt·ht-1+bh,其中Wh,Uh和bh为可训练参数;rt∈[0,1]为重置门,rt=σWret+Urht-1+br,其中Wr,Ur和br为可训练参数; 取所有状态的隐层表示的均值作为样本的表示 将样本的特征空间做L2正则限制,限制样本模长为α,即得到原始样本表示hx和正负样本表示将原始样本表示hx输入线性层和SoftMax层,得到标签分布p={p1,p2,…,pm},其中pm表示模型将样本预测为第m个意图标签ym的概率,m为意图的数目; 步骤3-3包括:采用如下公式计算样本的预测概率分布与真实标签之间的交叉熵 计算样本x和正负样本x+、x-之间的三元组损失TLx,x+,x-=maxdx,x+-dx,x-+m,0,其中样本x到样本y的距离 其中hx=a1,a2,…,ad,hy=b1,b1,...,bd,d为h的维度,m为超参数;最终模型的损失函数为L=CE+λ·TL,其中λ为超参数; 步骤4包括:类别i的类别中心表示为其中,Nc为训练集中类别i的样本数目,为样本xi的句子表示; 步骤4包括:计算样本到类别中心的最小马氏距离:首先计算训练集的协方差 其中c代表类别标签; 计算样本x到类别中心的最小马氏距离其中minc代表使得马氏距离最小的类别c;如果Mx大于选定阈值,则判断样本x为新意图样本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号南京大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。