中国科学技术大学王冬梅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利基于搜索自反馈的数据向量化标签处理方法和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120144876B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510447532.8,技术领域涉及:G06F16/9535;该发明授权基于搜索自反馈的数据向量化标签处理方法和设备是由王冬梅;高永翔;王涵盾;顾秦铭;陈雨婧;陶欣然;袁青芸;王欣怡;柴欢纯;万雯设计研发完成,并于2025-04-10向国家知识产权局提交的专利申请。
本基于搜索自反馈的数据向量化标签处理方法和设备在说明书摘要公布了:本发明涉及数据处理领域,具体涉及一种基于搜索自反馈的数据向量化标签处理方法和设备,该方法包括:通过元文件属性提取、光学字符识别、自动语音识别或字幕解析技术提取文本线索;利用语言模型和文本线索生成内容摘要;利用基于BERT架构的NER模型对内容摘要进行分析处理并提取特征,得到标签集合;通过FastText算法对标签集合进行处理,并降维得到候选标签向量;通过标签系统匹配候选标签向量和基础向量,基于基础向量的搜索结果集确定对应候选标签向量的搜索结果;以及收集用户行为数据,通过计算用户兴趣权值,和利用对抗生成网络模拟标注错误案例对标签系统进行优化。如此,针对异质异构数据,可以大大提高标记标签的准确率。
本发明授权基于搜索自反馈的数据向量化标签处理方法和设备在权利要求书中公布了:1.一种基于搜索自反馈的数据向量化标签处理方法,其特征在于,包括: 获取用户用于搜索的基础数据,并通过元文件属性提取、光学字符识别、自动语音识别或字幕解析技术从所述基础数据中提取文本线索;其中,所述基础数据的类型包括视频和图像; 将所述文本线索输入至预设的文本摘要语言模型中,生成内容摘要; 将所述内容摘要输入至预设的基于BERT架构的命名实体识别模型中,得到命名实体的信息,以生成标签集合; 基于FastText算法对标签集合中的标签进行语义关联性分析和融合领域语料进行增量训练,并进行特征提取,得到由标签向量组成的图结构向量;并通过主成分分析法对所述图结构向量进行降维处理,得到候选标签向量; 通过预设的标签系统比对所述候选标签向量和基础向量,以为所述候选标签向量匹配基础向量,并基于以基础向量为查询条件从目标数据库中得到的搜索结果集,确定对应候选标签向量的搜索结果,以实现通过所述候选标签向量对目标数据库中的数据进行标记;其中,所述标签系统基于预训练模型构建生成;所述基础向量包括由所述标签系统中预定义的标签和主题转换得到的向量; 收集用户行为数据,通过向量空间模型计算用户兴趣权值,和利用对抗生成网络模拟标注错误案例对所述标签系统进行优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230000 安徽省合肥市金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励