北京信息科技大学张仰森获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京信息科技大学申请的专利一种基于知识图谱的web日志异常行为识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114328962B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111637283.7,技术领域涉及:G06F16/36;该发明授权一种基于知识图谱的web日志异常行为识别方法是由张仰森;黄改娟;段瑞雪;陈若愚;胡昌秀设计研发完成,并于2021-12-29向国家知识产权局提交的专利申请。
本一种基于知识图谱的web日志异常行为识别方法在说明书摘要公布了:为提高对网络DNS服务器日志分析的能力,本发明综合多种技术,创新性的提出了构建面向域名解析系统的知识图谱。首先,应用域名解析、权威域名服务器、别名解析、自治系统等原理设计了基于aiohttp和dig技术相结合的自动化爬虫模型,构建了相应的领域知识库;其次基于该知识库设计了面向域名解析系统的知识图谱原型并完成了知识图谱的构建,其节点规模达近500万;最后,基于该知识图谱辅助完成web日志异常行为识别模型的构建。通过实验和实际应用反馈,该知识图谱在网络服务器日志异常行为检测与分析的过程中起到了关键作用,提高了web日志异常行为模型的识别率。
本发明授权一种基于知识图谱的web日志异常行为识别方法在权利要求书中公布了:1.一种基于知识图谱的web日志异常行为的识别方法,其特征在于:包括如下步骤, S1多源数据采集及相应领域知识库的构建 应用域名解析、权威域名服务器、别名解析、自治系统的方法设计基于aiohttp和dig技术相结合的自动化爬虫模型,构建相应的领域知识库; S2知识图谱原型设计及知识图谱的构建 基于S1的领域知识库设计面向域名解析系统的知识图谱原型并进行知识图谱的构建; S3web日志异常行为识别模型的构建 基于S2构建的知识图谱辅助完成web日志异常行为识别模型的构建; 其中,S1多源数据采集及相应领域知识库的构建中,首先,基于域名解析、权威域名服务器、别名解析、自治系统方法确立各类知识的数据类型;然后,确定各类数据的数据源,依据数据源确定各类知识的表结构,同时为每种知识设计特定的采集方案;最后,将采集到的网页数据依据知识库设计的表规则进行处理、过滤,将非结构化数据转化成结构化数据,并批量存储到相应知识库中; S1包括S11网站信息采集和网站分类体系构建; S12域名信息采集及域名信息知识库构建; S13IP信息数据采集及IP信息知识库构建; S14权威域名服务器信息采集及权威域名服务器知识库构建; S15ASN信息采集及ASN信息知识库构建; 其中,S11包括S111网站基本属性信息采集, 其中网站的标题、描述、关键词的采集数据来自StuffGate网站,采集流程为, S1111依据域名数量,设置可执行线程数; S1112依据域名设置请求URL; S1113设置IP代理池,并设置随机sleep时间; S1114从UserAgent数据池中随机抽取UA信息,模拟浏览器请求网页; S1115分析网页数据,制定域名各个属性参数的解析策略; S1116将获得的域名属性信息进行封装处理; S1117循环S1112-S1116,采用executemany方式每处理完1k域名进行入库; 针对Alexa排名获取过程中,基于aiohttp的异步爬虫框架,通过引入IP代理池、伪造登陆口令获取cookie信息、设置随机sleep时间; 网站所属国家信息采集的方案流程为S111A依据域名数量及可执行线程数量大小设置线程处理域名长度,降低数据的爬取时间; S111B利用爬虫技术获取站长之家和阿里的whois信息; S111C对比两者的国家信息,若一致,则存入结果集,处理下一个网站;反之,则执行S111D; S111D获取alexa.com提供的网站主要访问地理位置,矫正结果,存入结果集,处理下一个网站 还包括S112网站分类体系构建,其包括, S1121数据预处理:采用百度翻译API接口对网站基本信息属性中的网站标题、描述、关键词进行批量转化; S1122数据标注:采用人工方式对一批网站进行网站类型标注; S1123分词处理: 利用jieba分词技术对网站的标题、描述信息、关键词拼接构成的语句进进行分词,得到分词文本; S1124模型训练:使用分词后的有标签文本作为训练集进行训练,先对文本进行向量空间表示,得到每一个连接文本的向量空间表示,然后使用逻辑回归模型对基于特征表示的文本向量进行分类; S1125网站标签预测:使用训练好的模型进行无标签文本分类; 基于S111和S112的处理,完成网站信息知识库的构建; 其中,S12域名信息采集及域名信息知识库构建包括, S121依据域名数量,设置可执行线程数; S122依据域名设置请求URL; S123设置IP代理池,并设置随机sleep时间; S124从UserAgent数据池中随机抽取UA信息,模拟浏览器请求网页; S125分析网页数据,制定域名各个属性参数的解析策略; S126将获得的域名属性信息进行封装处理; S127循环S122-S126,采用executemany方式每处理完1k域名进行入库; 同时以这批域名数据为基础,依据域名解析的原理,构建一张域名与IP关联表;最终,域名信息知识库构建完成; S13IP信息数据采集及IP信息知识库构建中, 以域名信息知识库为基础,依据域名解析的原理,采用dig命令获取域名映射的IP集合,在dig查询过程中引入TCP协议解DNS污染,获得IP集合; IP属性信息获取流程为, S131依据IP数量,设置可执行线程数; S132依据IP设置请求URL; S133设置IP代理池,并设置随机sleep时间; S134从UserAgent数据池中随机抽取UA信息,模拟浏览器请求网页; S135分析网页数据,制定域名各个属性参数的解析策略; S136将获得的IP属性信息进行封装处理; S137循环S132-S136,采用executemany方式每处理完1k的IP集合进行入库; 最终,IP信息知识库构建完成; S14权威域名服务器信息采集及权威域名服务器知识库构建中, 基于域名信息知识库得到的权威域名服务器进行采集,选用dig命令的方式去获取权威域名服务器的相关IP信息; S15ASN信息采集及ASN信息知识库构建中, ASN信息采集包括, ASN采集 Step1以239个地区名为单元,设置请求URL; Step2依据whois.ipip.net网站页面样式设计采集策略; Step3将采集各个地区的ASN信息批量入库; ASN属性信息采集 Step1依据ASN设置请求URL; Step2分析页面结构,设计采集策略; Step3将获取的ASN信息进行封装; Step4采用executemany方式完成入库操作; CIDR属性信息采集 Setp1基于采集到的ASN,进行下钻分析,获取ASN对于的CIDR; Setp2依据ASN设置请求URL; Step3分析对应CIDR所在页面的样式,设计采集策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京信息科技大学,其通讯地址为:100192 北京市海淀区清河小营东路12号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励