Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 深圳安巽科技有限公司马庆贺获国家专利权

深圳安巽科技有限公司马庆贺获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉深圳安巽科技有限公司申请的专利一种恶意网页分类模型构建方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116881601B

龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310857739.3,技术领域涉及:G06F16/958;该发明授权一种恶意网页分类模型构建方法、系统及存储介质是由马庆贺;朱富康设计研发完成,并于2023-07-13向国家知识产权局提交的专利申请。

一种恶意网页分类模型构建方法、系统及存储介质在说明书摘要公布了:本发明公开了一种恶意网页分类模型构建方法、系统及存储介质,其中方法通过HTML内容确定网页的类别,从而为后续分类提供了准确的基础;通过TF‑IDF算法计算HTML标签内文本的平均TF‑IDF值,避免了噪音和无关信息的干扰;将HTML标签和文本进行组合,并使用分词算法对文本进行处理,为后续的表示和处理提供了基础;通过词嵌入技术结合编码器对词向量进行编码处理,实现了对文本的深度表示和理解;最终,根据文本分类结果构建恶意网页分类模型,并通过已有的人工标注网页类别的数据进行训练,提高了恶意网页分类模型的准确度。本发明所构建的模型无需配合其他模型使用,减少了所需要的计算资源,降低了模型部署的复杂性。

本发明授权一种恶意网页分类模型构建方法、系统及存储介质在权利要求书中公布了:1.一种恶意网页分类模型构建方法,其特征在于,包括: 通过网络爬虫爬取待识别网页的HTML内容,并确定所述待识别网页的类别; 通过TF-IDF算法计算所获取HTML内容中每个HTML标签内文本的平均TF-IDF值,并删除平均TF-IDF值低于预设值的HTML标签及其所对应的文本; 将HTML标签与其所对应的文本进行组合,使用分词算法对所述文本进行分词处理,并根据分词结果构建词表; 通过词嵌入将分词后的网页文本和HTML标签转换为词向量矩阵,并使用Transformer编码器对词向量进行编码处理,以进行文本分类; 根据文本分类结果构建恶意网页分类模型,并通过已有的人工标注网页类别的网页文本数据对所构建的模型进行训练及更新; 所述将HTML标签与其所对应的文本进行组合,使用分词算法对所述文本进行分词处理,并根据分词结果构建词表的步骤具体包括: 将对应的HTML标签与文本进行组合; 按字符切割的方式对文本进行分词处理,并保留文本分词结果中的token及HTML标签;使用分词器对组合后的文本进行分词处理;在分词结果中保留每个词语的同时,也保留对应的HTML标签; 构建词表,并将分词结果中的token及HTML标签记录到所构建的词表中,并为词表中对应的token及HTML标签分配唯一索引编号; 所述通过词嵌入将分词后的网页文本和HTML标签转换为词向量矩阵,并使用Transformer编码器对词向量进行编码处理,以进行文本分类的步骤具体包括: 将记录到词表中的token和HTML标签皆转换为词向量; 将转换得到的词向量按照词表中的索引编号构建成一个词向量矩阵,并在所构建的词向量矩阵中添加词的位置信息后输入至Transformer编码器; Transformer编码器对词向量矩阵中的词向量进行编码处理,以进行文本分类。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳安巽科技有限公司,其通讯地址为:518108 广东省深圳市南山区粤海街道滨海社区海天一路6号百度国际大厦东塔楼27层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。