光明网传媒有限公司李洪帅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉光明网传媒有限公司申请的专利基于自然语言处理及人工智能的稿件内容识别分析系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119886131B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411948507.X,技术领域涉及:G06F40/284;该发明授权基于自然语言处理及人工智能的稿件内容识别分析系统是由李洪帅;田崇强;辛琦;李大磊;刘强设计研发完成,并于2024-12-27向国家知识产权局提交的专利申请。
本基于自然语言处理及人工智能的稿件内容识别分析系统在说明书摘要公布了:本发明提供基于自然语言处理及人工智能的稿件内容识别分析系统,属于文本处理领域;解决了稿件内容识别效率低的问题;具体如下:稿件获取模块获取待分析稿件;内容识别模块计算每个稿件的自注意力值;获取准注意力值结合自注意力值,对待分析稿件进行分类,并添加内容标签;内容筛选模块:将待分析稿件转化原文本向量,获标文本向量;根据原文本向量和标文本向量,筛选待分析稿件中的虚假内容稿件和不良内容稿件;持续更新模块:用于持续获取、识别和筛选待分析稿件;本发明通过使用自注意力机制对稿件的文本内容和文本真实性进行分析,提高了稿件内容的识别效率。
本发明授权基于自然语言处理及人工智能的稿件内容识别分析系统在权利要求书中公布了:1.基于自然语言处理及人工智能的稿件内容识别分析系统,其特征在于,所述系统包括: 稿件获取模块:用于获取投稿信息的数量,获取每个投稿信息对应稿件,得到待分析稿件; 内容识别模块:用于提取待分析稿件中的全部词语,并使用自注意力机制,计算每个待分析稿件中词语与语句、词语与段落、词语与稿件的依赖关系,得到每个稿件的自注意力值;获取并计算标准稿件的自注意力值,得到准注意力值;根据每个稿件的自注意力值和准注意力值,对待分析稿件进行分类,并为每个待分析稿件添加内容标签; 获取投稿信息投送的稿件数量impn,将pn个投稿信息投送的稿件,记作mu1,1~mupn,impn;将稿件mu1,1作为稿件A; 流程A21:统计稿件A中的段落数量,记作pa; 统计稿件A中第1个段落的语句数量,记作se1;以此类推,第pa个段落的语句数量,记作sepa; 流程A22:统计稿件A中全部语句对应的词语数量,记作wo1,1~wopa,sepa; 其中,wo1,1表示第1个段落第1条语句的词语数量;以此类推,wopa,sepa表示第pa个段落第sepa条语句的词语数量; 提取wo1,1~wopa,sepa中的最大值记作womax,最小值记作womin;计算wo1,1~wopa,sepa的平均值,记作woavg; 流程A23:将文本扫描框的大小记作tC;定义关系式A1: ; 判断关系式A1是否满足,确定tC的计算式; 若关系式A1满足,则tC的计算式为:; 若关系式A1不满足,则计较bi1和bi2的大小,确定tC的计算式; 若bi1≥bi2,则tC的计算式为:; 若bi1<bi2,则tC的计算式为:; 其中,bi1和bi2都表示过渡系数,bi1的计算式为:bi1=[woavg-wominwoavg],bi2的计算式为:bi2=[womax-woavgwomax]; 流程A24:对稿件A中的第1个段落进行处理,得到词向量vc1,1,1~vc1,se11,wo1,se1; 其中,vc1,1,1表示第1个段落第1条语句中第1个词语的词向量;vc1,se11,wo1,se1表示第1个段落第se1条语句中第wo1,se1个词语的词向量; 流程A25:重复处理稿件A中第1个段落的相同流程,处理第2至第pa个段落,得到词向量vc2,1,1~vcpa,sepa,wopa,sepa; vc2,1,1表示第2个段落第1条语句中第1个词语的词向量; 以此类推,vcpa,sepa,wopa,sepa表示第pa个段落第sepa条语句中第wopa,sepa个词语的词向量; 流程A26:以Xavier 初始化,作为查询—键—值权重矩阵的初始化策略,得到权重矩阵WQ、WK和WV; 定义计算式A2‑1:Qix,y,z=WQ×vcx,y,z; 计算式A2‑2:Kix,y,z=WK×vcx,y,z; 计算式A2‑3:Vix,y,z=WV×vcx,y,z; 其中,×表示矩阵乘法,vcx,y,z表示第x个段落第y条语句第z个词语的词向量;x的取值范围为1~pa;y的取值范围由x决定,z的取值范围由x和y共同决定; Qix,y,z表示vcx,y,z的查询向量,Kix,y,z表示vcx,y,z的键向量,Vix,y,z表示vcx,y,z的值向量; 将vc1,1,2~vcpa,sepa,wopa,sepa代入计算式A2‑1至A2‑3中,得到vc1,1,2~vcpa,sepa,wopa,sepa对应的: 查询向量:Qi1,1,2~Qipa,sepa,wopa,sepa; 键向量:Ki1,1,2~Kipa,sepa,wopa,sepa; 值向量:Vi1,1,2~Vipa,sepa,wopa,sepa; 流程A27:统计vc1,1,2~vcpa,sepa,wopa,sepa的个数,记作nw; 获取vc1,1,2~vcpa,sepa,wopa,sepa对应词语的Unicode编码,得到Unz1~Unznw; 将词向量vc1,1,2~vcpa,sepa,wopa,sepa作为准向量,得到vcx1~vcxnw; 将准向量对应的查询向量、键向量以及值向量,按Unz1~Unznw的升序排列得到: 第1至第nw个准向量对应的查询向量:Qix1~Qixnw;键向量:Kix1~Kixnw;值向量: Vix1~Vixnw; 流程A28:计算第1个准向量的注意力分值,记作MA1; 流程A29:重复计算MA1的相同流程,计算第2至第nw个准向量的注意力分值,得到MA2~MAnw; 计算MA1~MAnw的和,记作aMA1,1;将aMA1,1作为稿件mu1,1的准自注意力值; 对待分析稿件进行分类具体如下: 获取科技稿件、生活稿件、购物稿件以及娱乐稿件,作为标准稿件;依次计算科技稿件、生活稿件、购物稿件以及娱乐稿件对应的自注意力值,得到MAa、MAb、MAc和MAd; 计算稿件mu1,1与科技稿件的相关系数,记作bx1,1‑1;的计算式为:bx1,1‑1=|aMA1,1-MAa|MAa; 稿件mu1,1与生活稿件的相关系数,记作bx1,1‑2;的计算式为:bx1,1‑2=|aMA1,1-MAb|MAb; 稿件mu1,1与购物稿件的相关系数,记作bx1,1‑3;的计算式为:bx1,1‑3=|aMA1,1-MAc|MAc; 稿件mu1,1与娱乐稿件的相关系数,记作bx1,1‑4;的计算式为:bx1,1‑4=|aMA1,1-MAd|MAd; 提取bx1,1‑1~bx1,1‑4中的最小值,记作bxl; 将bxl对应的标准稿件类型,作为稿件mu1,1的内容标签; 若bx1,1‑1~bx1,1‑4中的最小值不唯一,则将bx1,1‑1~bx1,1‑4中并列最小的相关系数,记作bxl1~bxlm; 其中,bxl1表示bx1,1‑1~bx1,1‑4中第1个并列最小的值,bxlm表示bx1,1‑1~bx1,1‑4中第m个并列最小的值,m的取值范围为:2~4;将bxl1~bxlm对应的标准稿件类型,作为稿件mu1,1的内容标签;内容标签包括:科技稿件、生活稿件、购物稿件和娱乐稿件; 内容筛选模块:用于利用聚类算法,将每个待分析稿件转化为文本向量,得到原文本向量;获取并转化纠错稿件,得到标文本向量;根据原文本向量和标文本向量,使用余弦相似度算法,筛选待分析稿件中的虚假内容稿件和不良内容稿件; 持续更新模块:用于持续获取待分析稿件,并对新获取的待分析稿件进行内容识别和内容筛选。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人光明网传媒有限公司,其通讯地址为:100000 北京市东城区珠市口东大街5号二层西侧;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。