北京邮电大学胡燕祝获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京邮电大学申请的专利一种融合全局语义特征与拼接特征的标准内容文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115114432B 。
龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210492503.X,技术领域涉及:G06F16/355;该发明授权一种融合全局语义特征与拼接特征的标准内容文本分类方法是由胡燕祝;赵兴昊;王珂璠;庄育锋设计研发完成,并于2022-04-29向国家知识产权局提交的专利申请。
本一种融合全局语义特征与拼接特征的标准内容文本分类方法在说明书摘要公布了:本发明公开了一种融合全局语义特征与拼接特征的标准内容文本分类方法,步骤是:1提取标准内容文本的序列化向量;2确定每个单词的上下文表示;3提取词语上下文权重及全局语义信息;4提取文本特征信息;5融合输出特征得到最终的类别预测概率。本发明使用基于层和词的局部信息提取方法获得更多的局部语义特征,融合多网络有效提取全局语义特征,最后将二者融合,为标准内容文本分类提供了一种准确率高的文本分类方法。
本发明授权一种融合全局语义特征与拼接特征的标准内容文本分类方法在权利要求书中公布了:1.一种融合全局语义特征与拼接特征的标准内容文本分类方法,其特征在于,包括以下步骤: 步骤一:提取标准内容文本的序列化向量: 获取文本中句子的向量表示,得到: ; 式中,是句子的向量表示,表示该句子文本中的第个字符,通过将文本输入到ALBERT层进行序列化操作,提取序列化后的文本向量,得到: ; 其中表示句子文本经序列化后的字符数组,表示文本中第个字的序列化字符; 步骤二:确定每个单词的上下文表示: 将经过ALBERT处理后的字符表示输入到BiLSTM层,BiLSTM通过前向和后向的LSTM来获得第时刻前向隐藏层状态和后向隐藏层状态,并将和拼接起来作为隐藏层状态向量,最后将与词向量信息结合,得到最终的每个单词的上下文表示;的计算过程如下: ; ; ; ; ; ; ; ; ; ; ; ; 上式、、分别为前向LSTM的输入门、遗忘门、输出门,、、为后向LSTM的三个门,这六个门可以控制信息流向,解决传统RNN的梯度消失与爆炸问题;在前向LSTM中,隐藏层状态对的更新有影响,对于后向LSTM,隐藏层状态对的更新有影响;为权重矩阵;为偏置项;为sigmoid激活函数;为状态变量,其与输出门共同控制最后的隐藏层状态;为哈达玛积;为双曲正切函数;为向量的拼接操作。经过BiLSTM处理之后的具有上下文信息的字符数组为: ; 步骤三:提取词语上下文权重及全局语义信息: 将BiLSTM输出的字符数组: 通过注意力机制对每个词的上下文匹配一个权重,以体现不同单词对句子全局语义特征的重要程度,最后通过加权求和得到全局语义信息; ; ; ; 为权重矩阵,为偏置项,为随机初始化、可学习的上下文向量,为第时刻的单词归一化权重;经过注意力机制加权,最终得到具有全局信息的向量; 步骤四:提取文本特征信息: 采用基于层和词的局部信息提取的改进CNN模型,除了基于层的在不同的一维卷积核下的特征信息进行池化,同时对基于词的在不同层下的特征进行池化,取不同宽度大小的的一维卷积核作用于文本表征上提取特征矩阵,为卷积核宽度; ; ; ; ; ; ; ; ; ; 是结构中第个词对应的第个一维卷积核权重矩阵,其作用在字向量窗口产生新特征,其中是偏置项,是激活函数;一维卷积核作用于每个可能的子向量窗口产生第个一维卷积核特征向量,多个卷积核特征向量组合得到特征矩阵;矩阵的行向量表示成同一个词在不同层的向量表示,同一层的特征可以由的列向量表示;本专利使用的最大池化操作分别作用于特征矩阵的行向量和列向量,方法上采用最大池化的方法;得到最显著的层特征和词特征;最终将所有显著的层特征和词特征进行拼接,得到最后的特征表示;表示第层的层特征,表示第个词的特征; 步骤五:融合输出特征得到最终的类别预测概率: ; ; ; 通过注意力机制获得的文本语义特征信息与通过基于层和词的局部信息提取的改进CNN获得的文本特征信息表示分别作用于分类器和分类器,分别获得分类概率与,取这两个概率的算数平均进行融合,最终得到类别预测概率,其中与为可训练权重,与为偏置项。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励