安徽大学朱二周获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽大学申请的专利基于词频和上下文语义多特征融合的钓鱼邮件深度检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119814391B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411847970.5,技术领域涉及:H04L9/40;该发明授权基于词频和上下文语义多特征融合的钓鱼邮件深度检测方法是由朱二周;刘云天;李薛剑设计研发完成,并于2024-12-16向国家知识产权局提交的专利申请。
本基于词频和上下文语义多特征融合的钓鱼邮件深度检测方法在说明书摘要公布了:本发明公开一种基于词频和上下文语义多特征融合的钓鱼邮件深度检测方法,通过融合字符级与词级的邮件头和邮件体特征,以及结合1‑DCNN模块和BiLSTM,在提高模型处理多样化和复杂邮件文本的能力方面显示出显著的创新性;不仅利用了CNN的局部特征提取能力和BiLSTM的序列数据处理优势,还增强了模型对复杂邮件特性的理解和分类效率。同时,应用了如文本标准化、词性还原的数据预处理步骤,以及TF‑IDF和Word2Vec技术,为特征提取和分类任务提供了标准化输入数据,并有效捕获了词语的语义信息,这些都是文本分析领域的常规做法。总体上,本发明在融合先进的模型架构和利用成熟的自然语言处理技术方面,为复杂文本分析任务提供了新的解决方案。
本发明授权基于词频和上下文语义多特征融合的钓鱼邮件深度检测方法在权利要求书中公布了:1.一种基于词频和上下文语义多特征融合的钓鱼邮件深度检测方法,其特征在于,包括以下步骤: 步骤1、将获取的电子邮件分为邮件头和邮件体,分别进行数据预处理形成规范邮件文本,预处理操作包括解析邮件内容、标准化文本格式、去除非必要字符以及进行词性还原; 步骤2、分别采用TF-IDF和Word2Vec对预处理所得邮件文本进行特征提取,得到字符级邮件头特征、字符级邮件体特征、词级邮件头特征和词级邮件体特征; 其中,使用TF-IDF提取邮件文本的单词级特征和字符级特征;使用Word2Vec的跳元模型Skip-Gram提取邮件文本的单词级特征; 步骤3、对上述四类特征进行特征融合:首先对Word2Vec产生的向量进行求和,然后使用TF-IDF权重对Word2Vec产生的向量进行加权求和,链接经TF-IDF生成的向量与经过TF-IDF加权的Word2Vec向量; 步骤4、基于一维卷积神经网络1-DCNN与双向长短时记忆网络BiLSTM构建钓鱼邮件分类模型;将融合后的特征输入钓鱼邮件分类模型进行钓鱼邮件的分类判定;所述钓鱼邮件分类模型依次包括输入层、1-DCNN模块、BiLSTM模块、Attention机制和输出层,具体构建方法为: 所述1-DCNN模块对输入的融合特征处理如下: a、融合特征的文本数据被转换成向量形式,并输入到CNN的卷积层; b、卷积层通过多个核处理输入数据,提取关键特征,并将关键特征输出到池化层; c、池化层降低关键特征的特征维度,接着输出到丢弃层; d、经过CNN处理后的特征向量,被送入BiLSTM模块; 所述BiLSTM模块接收来自1-DCNN模块的输出,分析文本中的序列特征,最终输出文本的综合特征表示;通过BiLSTM模块来捕捉和理解文本中的长距离依赖关系;所述BiLSTM模块中引入有残差连接;残差连接将LSTM单元的输入与输出进行直接相加; Attention机制处理过程: a、使用维特比算法对文本内容进行分词处理; b、计算每个单词的TF-IDF值,这是一个衡量单词在文档集合中重要程度的统计方法; c、选取TF-IDF值最高的前20个单词,作为评判文本重要性的标准; d、根据邮件的各个部分包含这20个单词的数量,计算出一个权重值,这个权重值在Attention机制中用来强调重要的文本部分。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市蜀山区经开区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励