国家计算机网络与信息安全管理中心王锟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国家计算机网络与信息安全管理中心申请的专利一种模板网站关键源码片段识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118796264B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410768709.X,技术领域涉及:G06F8/75;该发明授权一种模板网站关键源码片段识别方法是由王锟;贺敏;李美燕;张露晨;陈新兴;张绪川;秦韬;张林波;刘志丞;陈向春;邓杰设计研发完成,并于2024-06-14向国家知识产权局提交的专利申请。
本一种模板网站关键源码片段识别方法在说明书摘要公布了:本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。
本发明授权一种模板网站关键源码片段识别方法在权利要求书中公布了:1.一种模板网站关键源码片段识别方法,其特征在于:具体按以下步骤执行: S1:基于PC端移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;构建源码文件和源码片段的提取规则具体包括将采集到的网站源码进行汇总去重,通过解析页面代码提取页面html、meta、style、script、link、img特定标签,对html、meta、style、部分script、img内置内容标签提取当前代码片段进行存储;对link、部分script、img外链文件性质的标签需获取到src、href文件链接属性,获取该链接对应的文件进行存储;对采集到的网站链接、文件链接、代码片段、代码类型信息进行格式化的存储,形成支持后续关键源码分析的原始数据; S2:基于专家知识库分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本; S3:基于机器学习模型进行训练,形成网站关键源码片段研判模型;模型构建包括指标维度构建和分析;具体按以下步骤执行: S3.1:根据源代码的通用性和相关性两个方向构建特征维度,基于关键源码分析的原始数据构建分析样本库; S3.2:其中用于通用性分析的数据具体包括CDN域名、第三方库SDK和简单通用代码,相关性指标分析包括获取到的源码、图像和文字,其中源码包括网站上的同域的数据请求和初始化函数,所述图像包括LOGO,所述文字包括业务关键词; S4:通过模型对实时源码片段数据进行分析,并输出研判结果,对系统已有的维度进行打标,打标完成后交由人工审核标注形成正负样本,完成后使用机器学习决策树模型进行训练形成分析模型;如式1-式2; 式1 其中,表示数据集D的不确定性,Pci是类别ci在数据集D中的比例; 式2 其中,RT是决策树T对训练数据的误差,|T|是树中叶子节点的数量,α是正则化参数,用来平衡模型复杂度和误差。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国家计算机网络与信息安全管理中心,其通讯地址为:100020 北京市朝阳区裕民路甲3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励