北京市科学技术研究院廖金花获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京市科学技术研究院申请的专利一种用于信源发现的智能处理方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120234414B 。
龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510326353.9,技术领域涉及:G06F16/35;该发明授权一种用于信源发现的智能处理方法及装置是由廖金花;侯元元;张士运;李瑛;杜丽萍;王强;吕志坚;赵桂芬;徐冠宁;吴素研设计研发完成,并于2025-03-19向国家知识产权局提交的专利申请。
本一种用于信源发现的智能处理方法及装置在说明书摘要公布了:本发明公开了一种用于信源发现的智能处理方法及装置,该方法包括:获取用户需求信息;对所述用户需求信息进行解析,得到信息资源表;根据所述信息资源表,自动爬取科技情报文本,得到情报文本数据库;所述情报文本数据库包括N个情报文本,N为正整数;对所述情报文本进行主题抽取,得到每个主题簇的关键词列表;根据所述每个主题簇的关键词列表,对用户新的需求信息进行处理,得到主题测试结果。本发明方法能够根据网页链接关系构建网页上下文,综合链接关系和网页内容进行信息源自动发现分析,降低了人力成本、时间成本。通过对比分析和未知实体特征值的识别,能够发现新的信源主题,增强信息的全面性,提高信息搜集效率和准确性。
本发明授权一种用于信源发现的智能处理方法及装置在权利要求书中公布了:1.一种用于信源发现的智能处理方法,其特征在于,所述方法包括: S1,获取用户需求信息; S2,对所述用户需求信息进行解析,得到信息资源表; S3,根据所述信息资源表,自动爬取科技情报文本,得到情报文本数据库;所述情报文本数据库包括N个情报文本,N为正整数; S4,对所述情报文本进行主题抽取,得到每个主题簇的关键词列表,包括: S41,对所述情报文本进行文档嵌入,得到嵌入向量; S42,对所述嵌入向量进行降维处理,得到降维嵌入向量,包括: S421,对所述嵌入向量进行处理,得到8个候选嵌入维度向量; S422,利用基于注意力机制的维度选择器,对所述8个候选嵌入维度向量进行处理,得到降维嵌入向量; 具体为通过比较候选维度在政策文本的发文机构和类型上的分类准确率来确定最佳候选维度; 通过自注意力机制来进行信息的提取,并在自注意力层后连接上一个全连接网络作为输出层,输出到对应类别的概率,通过评估不同候选维度在分类任务上的准确率来选择最佳候选维度: out=softmaxMLPxhid其中q,k,v为每个文档对应8个候选嵌入维度向量,Q,K,V为对应全部文本组成的嵌入维度向量;Attention为注意力机制,softmax代表Softmax函数,T表示转置,out表示输出向量,即降维嵌入向量,dk=q2+k2+v2,MLP表示多层感知机; S43,对所述降维嵌入向量进行聚类处理,得到K个主题的类向量,K为正整数; 聚类方法为: 1随机在初始的数据点X={x1,x2,…,xn}中选择一个点作为簇类中心,并设定一个阈值,n为数据的数量; 2计算位于簇类中心的阈值距离范围的所有点,记入集合M,并归类为簇c,距离的度量公式为: Zck为簇ck的距离值,xi为第i个数据点,cj为第j个簇; 3计算集合M中每个元素和簇c间的距离向量并进行累加,得出偏移向量Mhx: 4簇类中心沿着偏移向量的方向移动等值于偏移向量的模的距离长度; 5循环步骤2、3、4,直到偏移向量值达到终止条件所设的阈值,记下此时的簇类中心; 6循环步骤1~5直到遍历所有数据点; 7最后计算每个元素被每个类的访问次数,将元素归类到其被访问次数最多的簇类中; S44,对每个主题的类向量进行主题表示,得到每个主题簇的关键词列表,包括: S441,对每个主题的类向量进行重要性程度计算,得到每个主题的重要性程度分值; 所述重要性程度分值表达式为: 其中,Fc为主题簇c的重要性程度分值,w表示一个候选词,C表示所有主题簇的集合,|c′∈C:w∈c′|表示包含词w的其他主题簇数量,|C|表示主题簇数量; S442,根据所述每个主题的重要性程度分值,选取排名前N的词作为每个主题簇的主题关键词,得到每个主题簇的关键词列表; S5,根据所述每个主题簇的关键词列表,对用户新的需求信息进行处理,得到主题测试结果,得到主题测试结果,包括: S51,利用大语言模型对用户新的需求信息进行解析,得到用户的意图关键词向量; S52,利用相似度计算模型,对所述每个主题簇的关键词列表和所述用户的意图关键词向量进行相似度计算,得到相似度值; 所述相似度计算模型表达式为: 其中,SA,B为相似度值,A为用户的意图关键词向量,B为每个主题簇的关键词列表,Ai和Bi为对应向量在第i个维度的值; S53,将所述相似度值与预设的阈值进行比较,当所述相似度值低于预设的阈值时,主题测试结果为发现了新的主题,并存储新主题关键词;当所述相似度值大于预设的阈值时,主题测试结果为未发现新主题。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京市科学技术研究院,其通讯地址为:100089 北京市海淀区西三环北路27号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励