Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西安理工大学朱磊获国家专利权

西安理工大学朱磊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西安理工大学申请的专利基于主题识别的网络舆情文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116467443B

龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310404738.3,技术领域涉及:G06F16/353;该发明授权基于主题识别的网络舆情文本分类方法是由朱磊;王菁;马维纲;黑新宏;赵钦;杨明松;文苗青设计研发完成,并于2023-04-17向国家知识产权局提交的专利申请。

基于主题识别的网络舆情文本分类方法在说明书摘要公布了:本发明公开了一种基于主题识别的网络舆情文本分类方法,具体包括如下步骤:步骤1,选取原始数据集,对该数据集进行处理;步骤2,对步骤1处理后的数据进行主题识别,得到与网络舆情主题相关的文本数据;步骤3,采用混合数据增强技术对步骤2所得的文本数据进行对抗训练;步骤4,对步骤3处理后的数据进行不相关词汇剔除;步骤5,将经步骤4处理后的数据导入TextCNN模型中进行文本分类。本发明解决了网络空间中涉法舆情领域所爬取的评论数据呈现短文本居多且核心内容稀疏的问题,以及涉法网络舆情文本语义表述隐晦、专业术语难以识别的问题。

本发明授权基于主题识别的网络舆情文本分类方法在权利要求书中公布了:1.基于主题识别的网络舆情文本分类方法,其特征在于:具体包括如下步骤: 步骤1,选取原始数据集,对该数据集进行处理;所述步骤1的具体过程为: 步骤1.1,从舆论平台爬取所要处理的舆论主题的用户评论作为原始数据集,通过Python中的pandas来对json格式的原始数据进行主题帖的文本拼接操作,并经过格式转换处理为csv格式保存; 步骤1.2,使用Jieba分词工具对步骤1.1所获得的主题帖进行中文文本数据的分词,然后人工删除掉拼接文本分词后的标点符号和停用词; 步骤1.3,将步骤1.2处理后的文本数据进行分类标签类别划分,划分为n类标签; 步骤1.4,按照步骤1.3划分的标签,对经步骤1.2处理后的文本进行标签标注; 步骤1.5,手动构建所分类的网络舆情主题文本的术语词典,其中词典中的词汇取自人工判别后的步骤1.2中经过分词预处理的文本; 步骤2,对步骤1处理后的数据进行主题识别,得到与网络舆情主题相关的文本数据;所述步骤2的具体过程为: 步骤2.1,按照步骤1.3标注的标签对经步骤1.2处理后的文本进行拼接,构建出以主题帖为单位的文档级数据;其中假设包含D个文本的语料库,每个语料库文本中含有B个词对,每个语料库文本中有N个单词,每个语料库文本中一共涉及到K个主题; 步骤2.2,将步骤2.1中经过主题拼接之后的文档级数据集作为输入文档传入到BTM模型中,BTM模型中先生成词对语料库,利用语料库信息将短文本转化为词对模式,从语料库的层面去描述主题分布以及词分布; 所述步骤2.2的具体过程为: 步骤2.2.1,通过迪利克雷分布数学概率模型的计算获得特定主题下的单词分布~Dirβ,其中ф为主题-词概率分布,即=Pw|r,Dir为BTM模型中所用到的数学概率迪利克雷分布,β是迪利克雷先验参数,标签主题用k表示,语料库联合形成的词向量为w以及主题分布为r,Pw|r表示w,r的联合概率分布; 步骤2.2.2,在步骤2.1中得到的整个文本数据集合中随机获得一个主题分布~Dirα,其中为文档-主题概率分布,语料库文本用d表示,Dir为BTM模型中所用到的数学概率迪利克雷分布,α是迪利克雷先验参数; 步骤2.2.3,对于词对集合B中的词对b,b∈B,从主题分布中任意抽取一个主题k,获得一个主题分配k~Multi;从主题k中任意抽取一个词对biterm,即和,,~Multi,其中Multi表示参数为的多项式分布,表示整个语料库中K个主题的概率分布,即=Pk;文本的主题分布采用如下公式1表示: Pd==1 其中,表示针对于每一个主题k相关的*操作进行求和运算;,Pk表示整个语料库中第k个主题的概率分布;表示文本所取词对应的主题分布,由于词对b=,,所以这里的#取i或j;表示主题k下的词的概率分布; 根据公式1,将词对b=,的联合分布概率计算出来,语料库中含有K个主题和|B|个词对,词对b则是由和组成,因而,整个语料库中双词集合B的概率PB采用如下公式2表示: PB=2 步骤2.2.4,根据文档中单词对的预期概率进行文档主题的推断,进行文档中的主题的条件概率分布计算: Pk|d=3 其中,Pk|d表示文档d中的主题k下的条件概率分布,表示对于文本语料库中的每一个词对b的*操作进行求和运算,表示词对b对应主题k的条件概率分布,表示文本d中包含的词对b的条件概率分布; Pk|b=4 其中,Pk|b表示文档b中的主题k下的条件概率分布,表示主题k下所包含词对中的条件概率分布,由于词对b=,,所以这里的#取i或j,表示对于主题k的*操作进行求和运算;为了获取到文档中单词对的条件概率Pb|d,将单词对作为中间媒介来计算: Pb|d=5 其中,表示共现单词对b在文档d中出现的频次总和,且在舆情文本数据集中,Pb|d看作是文档d中所有的共现词对b的均匀分布; 步骤2.2.5,采用基于MCMC算法对网络舆情文本数据去进行吉普斯抽样,当Gibbs采样收敛后,收敛的条件为通过转移概率矩阵收敛到稳定的概率分布,即可得到所有词的采样主题,利用所有采样得到的词和主题的对应关系,得到每个文档-主题分布和每个主题-词分布,从而从爬取文本数据中过滤掉不相关数据,只留下与网络舆情主题相关的文本数据; 步骤3,采用混合数据增强技术对步骤2所得的文本数据进行对抗训练; 步骤4,对步骤3处理后的数据进行不相关词汇剔除; 步骤5,将经步骤4处理后的数据导入TextCNN模型中进行文本分类。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安理工大学,其通讯地址为:710048 陕西省西安市碑林区金花南路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。