中国信息通信研究院李荪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国信息通信研究院申请的专利用于数据集语义质量评估的方法及装置、电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120996027B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511501706.0,技术领域涉及:G06F40/216;该发明授权用于数据集语义质量评估的方法及装置、电子设备是由李荪;樊威;曹峰;燕江依设计研发完成,并于2025-10-21向国家知识产权局提交的专利申请。
本用于数据集语义质量评估的方法及装置、电子设备在说明书摘要公布了:本申请涉及数据评估技术领域,公开一种用于数据集语义质量评估的方法及装置、电子设备,其中,方法包括:对待评估数据集中的多个文本数据进行深度语义特征提取,获得每个文本数据对应的语义向量;根据语义向量进行多维度语义质量评估,获得多个评估得分;多维度语义质量评估的评估维度包括语义一致性评估、语义丰富性评估和语义偏见评估中的多种;根据多个评估得分,确定综合语义质量评分,并生成可视化报告。对多个文本数据进行语义特征提取,所生成的语义向量能够捕捉文本的复杂语义信息,提供丰富的语义表示。然后从多个维度对待评估数据集进行评估,全面客观的评估数据集的语义质量,实现更深层次的质量评估,提高对数据集的质量评估效果。
本发明授权用于数据集语义质量评估的方法及装置、电子设备在权利要求书中公布了:1.一种用于数据集语义质量评估的方法,其特征在于,包括: 对待评估数据集中的多个文本数据进行深度语义特征提取,获得每个文本数据对应的语义向量; 根据语义向量进行多维度语义质量评估,获得多个评估得分;多维度语义质量评估的评估维度包括语义一致性评估、语义丰富性评估和语义偏见评估中的多种; 根据多个评估得分,确定综合语义质量评分,并生成可视化报告; 其中,根据语义向量进行多维度语义质量评估,获得多个评估得分,包括: 根据语义向量计算待评估数据集的语义相似度分布,获得语义一致性评估得分;具体包括:根据待评估数据集中的关键语义词的重要性,确定语义权重矩阵;根据语义权重矩阵以及待评估数据集中任意两个文本数据对应的语义向量,计算任意两个文本数据之间的语义相似度,获得相似度矩阵;对相似度矩阵进行统计分析,获得相似度矩阵的统计指标;根据统计指标确定语义一致性评估得分; 根据语义向量分析待评估数据集的词汇多样性和语义深度,获得语义丰富度评估得分;具体包括:根据语义向量对待评估数据集中的多个文本数据进行分词处理,并根据分词处理结果统计不同词汇的种类数量和出现频率,获得词汇多样性指标;根据语义向量分析待评估数据集中的多个文本数据中词汇的语义特征分布,获得语义深度指标;语义特征分布包括词汇在不同语义维度上的方差,以及词汇在句子中的语义角色和关系;根据词汇多样性指标和语义深度指标,获得语义丰富度评估得分; 根据语义向量分析待评估数据集的语义偏见模式,获得语义偏见评估得分;具体包括:根据语义向量确定待评估数据集中存在的偏见文本;确定与偏见文本相关的结构化数据,并根据结构化数据进行因果分析,获得偏见产生的根本原因,从而确定偏见类型;根据偏见类型和偏见文本,确定语义偏见评估得分。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国信息通信研究院,其通讯地址为:100191 北京市海淀区花园北路52号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励