太极计算机股份有限公司;中电科大数据研究院有限公司韩国权获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉太极计算机股份有限公司;中电科大数据研究院有限公司申请的专利数据处理方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116467427B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310323580.7,技术领域涉及:G06F16/335;该发明授权数据处理方法及装置是由韩国权;吕灏;陈轮;祁纲;黄海峰;洒科进;李响设计研发完成,并于2023-03-29向国家知识产权局提交的专利申请。
本数据处理方法及装置在说明书摘要公布了:本申请提供一种数据处理方法及装置,所述方法包括:得到原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理;对剪枝后的离群点候选集中的数据点进行离群处理。本发明实施例提供的数据处理方法及装置,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。
本发明授权数据处理方法及装置在权利要求书中公布了:1.一种数据处理方法,其特征在于,所述方法包括: 对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇; 对所述各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于半径且标签不是医学教材的医学数据放入离群点候选集中;其中,所述类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值; 基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集; 对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点; 其中,所述基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,具体包括: 对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理; 对于标签为电子病例的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,通过医学词典将该数据点进行矢量重计算,若使该数据点离聚类中心的距离变小,则保留矢量重计算后的数据点,否则对该数据点进行剪枝处理; 对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,计算该数据点的其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,对该数据点进行剪枝处理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人太极计算机股份有限公司;中电科大数据研究院有限公司,其通讯地址为:100083 北京市海淀区北四环中路211号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。