Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 烟台海颐软件股份有限公司于瑞强获国家专利权

烟台海颐软件股份有限公司于瑞强获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉烟台海颐软件股份有限公司申请的专利面向数据治理的具有传播学习能力的异常识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117131449B

龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311087471.6,技术领域涉及:G06F18/2433;该发明授权面向数据治理的具有传播学习能力的异常识别方法及系统是由于瑞强;李晓宇;李锐;喻魏贤;宋欢予;闫谷丰;刘效强;杨玉传;刘军设计研发完成,并于2023-08-28向国家知识产权局提交的专利申请。

面向数据治理的具有传播学习能力的异常识别方法及系统在说明书摘要公布了:本发明公开了一种面向数据治理的具有传播学习能力的异常识别方法及系统,该方法包括:配置文件加载,读取待检测数据,且区分为数值型字段和分类型字段;对待检测数据进行预处理,获取到采样区间和初始标签;根据采样区间进行数据采样,结合交互标记操作,训练字段级异常分类器与记录级异常分类器;利用训练好的字段级异常分类器和记录级异常分类器分别对待检测数据进行字段级异常识别和记录级异常识别,输出异常数据。本发明依据采样算法抽取有代表性的数据,通过系统中集成的用户交互模块对数据进行标注,通过标签传播扩展标签数量,大幅减少所需标签数据的数量,训练有监督的分类模型并结合主动学习提升混合数据异常识别的准确性。

本发明授权面向数据治理的具有传播学习能力的异常识别方法及系统在权利要求书中公布了:1.一种面向数据治理的具有传播学习能力的异常识别方法,其特征在于,包括如下步骤: S1:进行配置文件加载,从数据源读取待检测数据,且将待检测数据区分为数值型字段和分类型字段; S2:对待检测数据进行预处理,获取到采样区间和初始标签; S3:根据采样区间进行数据采样,结合交互标记操作,训练字段级异常分类器与记录级异常分类器; S4:利用训练好的字段级异常分类器和记录级异常分类器分别对待检测数据进行字段级异常识别和记录级异常识别,输出异常数据; 步骤S3具体包括如下步骤: D1:数据采样及结果获取,包括如下步骤: D1-1:对采样区间内的数据进行采样 通过多次迭代的方式进行采样,在每次迭代中,根据Softmax函数计算每条数据的采样概率: 其中,pi是di的采样概率,pij是数据di在第j列的概率,假设di在第j列的属于第c簇,Njc代表第j列第c簇已经被采样的数量,k是第j列的总簇数;依据采样概率进行抽样,直到采样数量达到预先设置的值为止,形成采样集合S; D1-2:使用四分位法筛选待标记分类型数据 对于每个分类型字段,依据频率特征计算四分位值,将频率小于下四分位界限的类别加入分类字段采样集合Sl中,下四分位界限计算方式如下: IQR=1.5·Q3-Q1 b=Q1-IQR 其中,Q1和Q3分别为25%分位数和75%分位数; D1-3:使用交互模块获取标记结果 基于用户交互模块,将采样集合S和分类字段采样集合Sl传递给用户进行标注,并解析标注结果,获取数据标签; D2:通过交互式主动学习训练记录级分类器,包括如下步骤: D2-1:训练初始分类模型 选取LightGBM作为分类器,结合已获取的数据标签,包括数据与配置加载模块生成的记录集合Lr、步骤S2的初始标签以及交互模块获取的数据标签,将编码表DC中对应的数据作为输入,获得初次训练好的模型; D2-2:依据预测概率选择待标记样本 使用模型对去重集合A'和N'进行预测,获取每个样本所属正常类及异常类的预测概率,计算公式如下: 其中,Py=k|x表示样本属于类别k的概率,scorek表示所有决策树的类别k的平均分数,scorek的计算方法为: 其中,pik表示样本在第i棵树中被分到叶子节点,并且该叶子节点上类别k的样本概率,N为决策树的数量,ni是此叶子结点中点的总数量,nik是叶子结点中属于类别k的数量; 根据预测概率计算每个样本的不确定性概率,计算方式如下: prop=AbsPy=0|x-0.5+AbsPy=1|x-0.5 其中,Py=0|x和Py=1|x分别表示样本正常和异常的概率,Abs代表取绝对值操作; 将所有预测样本按不确定性概率排序,取不确定性最大的10条进行采样,并将其更新到采样集合S中; D2-3:标注样本 将上一步中采样获得的样本传入用户交互模块并获取标签,更新标签集合; D2-4:更新模型 使用所有已有标签的数据训练一个新的模型; D2-5:重复步骤D2-2至D2-4,直到步骤D2-2的采样数量达到预先设置的值为止,获得最终的记录级异常检测分类器m0; D3:字段标签传播 设计基于编码结果的字段标签传播方案,对于数值列字段,将已有标签根据聚类结果传播给同一簇的其他数据,获得额外的带有标签的字段数据;对于分类型字段,将标签传播给同一类别的其他数据上; D4:训练字段级分类器 对每个数值型字段j,筛选已有标签的数据,使用步骤S2中生成的特征训练一个LightGBM分类器mj,得到l个字段级异常分类器M={m1,m2,…,ml},l为数据包含的数值型字段的列数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人烟台海颐软件股份有限公司,其通讯地址为:265599 山东省烟台市开发区珠江路32号(III-5小区);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。