Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 合肥工业大学钱洋获国家专利权

合肥工业大学钱洋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉合肥工业大学申请的专利一种基于置信学习的有偏数据检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115731438B

龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211465025.X,技术领域涉及:G06V10/80;该发明授权一种基于置信学习的有偏数据检测方法是由钱洋;杜威;徐旺;姜元春;凌海峰;刘业政;许华华;陈邵格设计研发完成,并于2022-11-22向国家知识产权局提交的专利申请。

一种基于置信学习的有偏数据检测方法在说明书摘要公布了:本发明公开了一种基于置信学习的有偏数据检测方法,包括:1.构建并表示包含有偏数据的数据集,2.构建多模态集成预测模块,3.多模态集成预测模块的训练,4.构建置信联合计数矩阵和联合概率分布,5.根据有偏率对有偏数据进行过滤。本发明基于置信学习框架,综合考虑了文本与图片的特征表达,能够估计含偏标签与正确标签的联合概率分布,从而能筛选出正确数据,并有效降低含偏标签对相关任务的影响。

本发明授权一种基于置信学习的有偏数据检测方法在权利要求书中公布了:1.一种基于置信学习的有偏数据检测方法,其特征在于,是按如下步骤进行: 步骤1、将包含有偏数据的样本数据集记为X={X1,X2,…,Xk,…,X},其中,K表示所述样本数据集X中的样本数,X表示第k个样本,且表示第k个样本X的文本,且表示第k个样本X中文本的第n个单词,N为文本的单词数;表示第k个样本X的图片集,且表示第k个样本X中图片集的第m张图片;M为图片集的图片数量;表示第k个样本X中含偏标签集,且表示第k个样本X中含偏标签集的第g个含偏标签,G为含偏标签集的含偏标签数; 将所述样本数据集X中所有样本的不重复的含偏标签集记作表示第c个含偏标签,C为所述样本数据集X中不重复的含偏标签数量; 步骤2、构建多模态集成预测模块,包括:文本分类器、视觉分类器和融合层; 步骤2.1、基于Bi-LSTM模型构建文本分类器; 步骤2.1.1、所述文本分类器通过一个嵌入层对第n个单词进行处理,得到第n个单词的嵌入向量从而得到的嵌入向量集合 步骤2.1.2、所述文本分类器将嵌入向量集合Ek输入Bi-LSTM网络中并获得文本描述的词级别表征Hn: 所述Bi-LSTM网络中的前向网络按照到的顺序读取嵌入向量,并利用式1得到第n个单词的前向隐藏状态 式1中,代表第n-1个单词的前向隐藏状态; 所述Bi-LSTM网络中的后向网络按照到的顺序读取嵌入向量,并利用式2得道第n个单词的后向隐藏状态 式2中,代表第n+1个单词单的后向隐藏状态; 所述Bi-LSTM网络再通过式3得到结合上下文情境的第n个单词的表征表示从而得到第k个样本Xk的文本的单词表征 步骤2.1.3、所述文本分类器采用平均池化的方法处理来获取文本的全局特征再通过softmax分类层对全局特征进行处理,从而利用式4生成仅在文本条件下,第k个样本Xk对第c个含偏标签的预测概率 式4中,和分别表示在第c个标签下的参数矩阵和偏置向量; 步骤2.2、基于预训练后的VGG-16网络构建视觉分类器; 步骤2.2.1、所述视觉分类器将第k个样本的图片集输入预训练后的VGG-16模型中进行处理,并将VGG-16模型中倒数第二个全连接层的输出作为图片集的特征表示集合;其中,表示中第m张图片的特征表示; 步骤2.2.2、所述视觉分类器采用平均池化的方法对图片集的特征表示集合进行聚合操作,得到第k个样本Xk的图片集的视觉特征再使用一个MLP层对视觉特征进行处理,并利用式5得到视觉特征的隐藏展示最后使用另一个MLP层对隐藏展示进行处理,并利用式6生成仅在视觉条件下,第k个样本Xk对第c个含偏标签的预测概率 式5和式6中,tanh表示双曲正切函数,并作为隐藏层的激活函数,分别表示隐藏层对应的参数矩阵和偏置向量;和分别表示在第c个含偏标签下的参数矩阵和偏置向量; 步骤2.3、融合层使用如式10所示的加权平均法对预测概率进行集成,得到第k个样本Xk对第c个含偏标签最终的集成预测概率 式7中,α,β分别为文本分类器和视觉分类器的权重大小,满足α,β∈[0,1]且α+β=1; 步骤3、多模态集成预测模块的训练: 步骤3.1、利用式8构建多模态集成预测模块的交叉熵损失函数J: 式8中,S表示多模态样本数据集X中的部分样本作为训练集,|S|表示训练集的样本数,表示训练集中第f个样本Xf的含偏标签集; 步骤3.2、利用误差反向传播算法对所述多模态集成预测模块进行训练,并最小化损失函数J用于更新模块参数,直到所述损失函数J收敛为止,从而得到最优多模态集成预测模型; 步骤4、利用式9计算所述含偏标签集中第j个含偏标签的置信度阈值tj: 式9中,表示样本数据集X中具有第j个含偏标签的样本子集,表示样本子集中的任意一个样本x在最优多模态集成预测模型的参数θ下对第j个含偏标签的预测概率,||表示计数操作; 步骤4、构建置信联合计数矩阵和联合概率分布; 步骤4.1、根据置信度阈值,对所述样本数据集X中的正确标签进行估计,得到正确标签集y*,从而利用式10和式11计算含偏标签集与正确标签集y*的置信联合计数矩阵 式10与式11中,表示中第i行第j列的值,即为同时具有第i个含偏标签与第j个正确标签的样本数量表示同时具有第i个含偏标签与第j个正确标签的估计数据集合; 步骤4.2、根据置信联合计数矩阵估计含偏标签集与正确标签集y*的联合概率分布 步骤4.2.1、利用式12得到修正后计数矩阵第i行第j列的值 步骤4.2.2、利用式13得到含偏标签集与正确标签集y*的联合概率分布估计 式13中,为联合概率分布估计中第i行第j列的值,表示数据中同时具有第i个含偏标签与第j个正确标签的概率,且满足 步骤5、根据有偏率对有偏数据进行过滤: 步骤5.1、从中的所有非对角线元素所对应的中选择若干个使得式14最小的样本并组成有偏数据候选集: 式14中,表示样本子集中的任意一个样本x在参数θ下对第i个含偏标签的预测概率; 步骤5.2、利用式15计算所述有偏数据候选集中的每个样本的边际并用于对样本进行升序排序,得到排序后的有偏数据候选集: 式15中,mean表示平均池化操作;为样本数据集X中的第i个含偏标签;表示第k个样本Xk的含偏标签集合;表示第k个样本Xk在参数θ下对第i个含偏标签的预测概率; 步骤5.3、对排序后的有偏数据候选集,选取前一定比例的数据进行过滤,得到相对干净的数据集。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市包河区屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。