Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 四川省文化大数据有限责任公司陈晓鹏获国家专利权

四川省文化大数据有限责任公司陈晓鹏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉四川省文化大数据有限责任公司申请的专利一种数据集的自动化质量评估方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120951988B

龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511019168.1,技术领域涉及:G06F40/216;该发明授权一种数据集的自动化质量评估方法是由陈晓鹏;魏连华;白叶;陈森;王岚;刘俊设计研发完成,并于2025-07-23向国家知识产权局提交的专利申请。

一种数据集的自动化质量评估方法在说明书摘要公布了:本发明涉及数据质量评估技术领域,具体为一种数据集的自动化质量评估方法,包括以下步骤:提取语义片段与向量信息,聚类分析覆盖结构,筛除冗余样本,标注图文差异,输出一致性评估结果。本发明中,通过语义信息的结构化抽取与向量分布度量使得语义覆盖与结构密集程度可实现高精度识别,向量重合频率与相似度阈值联动筛除增强冗余检测的判别性,图文位置差异与语义跨度联合标注机制提升图文一致性标记的系统性,文本筛除内容与图文差异标注结果间的同步对照机制确保冗余与偏差的交集样本可精确识别,文化语义内容在向量空间中的密集聚类与结构偏离点的定量分析能力同步提升,评估结果的综合维度与逻辑闭合性实现优化。

本发明授权一种数据集的自动化质量评估方法在权利要求书中公布了:1.一种数据集的自动化质量评估方法,其特征在于,包括以下步骤: S1:获取文化类文本样本,提取短语级语义片段,检索每个关键词在文化语义词库中的向量坐标,记录词频、上下文BERT句向量相似度与位置索引,得到语义片段分布数据; S2:根据所述语义片段分布数据,比对片段间词向量重合频次,确认分布跨度,标记样本内容覆盖情况与结构密集程度,得到样本覆盖聚类结果; 所述样本覆盖聚类结果具体获取步骤为: S211:根据所述语义片段分布数据,以样本编号为单元分别提取片段对应词向量集合,根据每组样本中所有语义片段对应的词向量序列,对不同片段之间的词向量项进行索引编号匹配,记录重复出现的向量编码频次,获取各样本内部片段间的词向量重合次数,并以该次数构建区间差值,得到样本内重合频次跨度数据; S212:根据所述样本内重合频次跨度数据,获取每个样本所含全部词项的词频值,依次采集每组样本词频序列中各项浮点值,计算每组样本的标准差,并基于样本的词向量矩阵计算主成分的方差占比值,并将两个计算结果合并为双维指标值,得到语义波动特征数据; S213:根据所述语义波动特征数据,对每组样本的语义片段密度信息计算结构密度评分,对比各样本在向量序列中单位位置内的语义片段数与密度阈值,将低于密度阈值的标记为疏散区域,高于密度阈值的标记为密集区域,综合记录每组样本的覆盖内容范围与片段集中程度,获取样本覆盖聚类结果; S3:根据所述样本覆盖聚类结果,筛选重合频次高于重合均值加标准差且跨度小于相似度阈值的样本,统一标记为冗余内容样本,得到文本样本筛除内容; S4:获取文本样本区域结构集合,匹配结构关键词与所述语义片段分布数据中的关键词向量,记录对应语义跨度与结构位置间的差异特征,对偏差内容进行标记,得到图文差异标注内容; 所述图文差异标注内容具体获取步骤为: S411:获取文本样本区域结构集合,基于每块区域的图像边缘信息执行边缘检测,对图像灰度矩阵进行平滑处理,提取区域边缘轮廓线段并统计单位面积内边缘像素数量与区域在样本结构中的相对位置信息,获取区域边缘密集度与位置信息集; S412:根据所述区域边缘密集度与位置信息集,提取每块结构区域内标注的关键词列表,根据所述语义片段分布数据中全部关键词向量值,对比区域关键词与语义片段关键词的向量编号,将每组匹配项所对应语义片段的跨度值与结构区域的空间位置信息建立对应索引关系,获取语义跨度与结构位置差异记录; S413:依据所述语义跨度与结构位置差异记录,判断差异是否超过结构区域偏移阈值,对存在偏移现象的关键词序列进行样本位置映射与差异标记,将标记内容与结构区域编号组合为结构定位坐标集合,并提取在文本样本中的位置段落文本与图像结构区域内容,获取图文差异标注内容; S5:根据所述图文差异标注内容与所述文本样本筛除内容进行同步对应,汇总存在冗余与差异交集的样本,获取文化数据集一致性质量评估结果; 所述文化数据集一致性质量评估结果具体获取步骤为: S511:根据所述图文差异标注内容与文本样本筛除内容,提取各自所标记的样本编号集合,对两组编号进行映射转换并建立统一比对表,根据比对表中样本编号进行交叉筛选,获取同时存在于差异标注与筛除内容的样本记录编号,获取差异冗余交集编号组; S512:根据所述差异冗余交集编号组,对每个样本编号关联的图文内容结构进行归档编码处理,基于内容结构块数量、覆盖区域分布与语义跨度位置记录内容一致性项,对全部交集编号中的图文项进行一致性判定分类,将不满足位置一致性要求的标记为不一致项,得到图文一致性异常项数量; S513:根据所述图文一致性异常项数量与总样本量,统计交集异常占比、单项冗余率以及偏位率,综合计算在文化语义映射精度指标体系中的权重得分,并以权重得分对样本集合进行整体评估分级,获取文化数据集一致性质量评估结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川省文化大数据有限责任公司,其通讯地址为:610000 四川省成都市高新区盛通街88号2栋209号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。