Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京邮电大学许斌获国家专利权

南京邮电大学许斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京邮电大学申请的专利基于特征融合的机器生成文本溯源方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119577129B

龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410854416.3,技术领域涉及:G06F16/35;该发明授权基于特征融合的机器生成文本溯源方法及系统是由许斌;俞文军;文清;程龙刚;董振江设计研发完成,并于2024-06-28向国家知识产权局提交的专利申请。

基于特征融合的机器生成文本溯源方法及系统在说明书摘要公布了:针对现有机器生成文本溯源技术中单一特征难以准确追溯机器生成文本来源的问题,本发明提出了一种基于特征融合的机器生成文本溯源方法及系统,构建了一种新的机器生成文本溯源模型,通过结合文本的统计特征和语义特征,为模型提供了更丰富的特征表示。本发明首先利用词嵌入技术将输入文本转换为语义向量,捕捉文本的语义信息,同时使用GPT‑2模型计算文本的预测概率、累积概率和信息熵,将其作为文本统计向量,以捕捉文本的统计信息。之后,通过GRU、Transformer编码器进一步提取特征,GRU通过其更新门和重置门机制有效捕获序列数据中的长期依赖关系,而Transformer编码器则利用多头注意力机制捕捉全局依赖信息。GRU和Transformer编码器的输出随后通过线性层进行线性变换,以获得文本的语义特征和统计特征,再通过特征融合策略整合文本语义特征和统计特征。最后,融合后的特征向量通过分类器进行分析,以判断文本是人类编写还是由特定的语言模型生成。

本发明授权基于特征融合的机器生成文本溯源方法及系统在权利要求书中公布了:1.一种基于特征融合的机器生成文本溯源方法,其特征在于,包括以下步骤: 步骤1、获取包括训练数据和相应的类别标签的文本溯源数据集; 步骤2、通过词嵌入技术,将步骤1中的文本溯源数据集转换为语义向量的形式;通过GPT-2模型将步骤1中的文本溯源数据集转换为统计向量的形式; 步骤3、使用步骤2的文本语义向量和统计向量训练基于特征融合的机器生成文本溯源模型,基于特征融合的机器生成文本溯源检测模型包括特征提取层、特征融合层以及分类层,完成训练后,获得训练后的基于特征融合的机器生成文本溯源模型; 步骤4、将训练后的基于特征融合的机器生成文本溯源模型部署到系统中; 步骤5、将接收的待溯源文本作为输入,训练后的基于特征融合的机器生成文本检测模型进行分类预测,获得溯源结果; 步骤6、系统返回溯源结果给用户,用户获取溯源结果即输入文本所属的类别标签,若存在溯源错误的情况,用户可通过前端页面上传错误溯源信息; 采用词嵌入技术将文本转换为语义向量形式,此外通过GPT-2模型计算文本的预测概率、文本的累积概率和文本的信息熵,作为文本的统计向量,具体步骤包括: 步骤2.1、输入的文本溯源数据集中的文本,通过BERT模型将句子分解成一系列的tokens,它通过将输入文本的每个词映射到一个高维向量空间,使得模型能够捕捉到每个token的语义信息以及词之间的关系,这些嵌入向量不仅包含了token本身的信息,还融入了其在文本中的位置信息,即位置嵌入,通过在词嵌入中添加位置信息,帮助模型理解每个token在句子中的位置,此外BERT模型还使用了段落嵌入,段落嵌入帮助模型区分不同句子中的tokens,通过将词嵌入、位置嵌入和段落嵌入相结合,BERT能够为每个token生成一个综合的向量,并将这些综合的嵌入表示输入编码层进一步处理,得到最终的嵌入表示; 步骤2.2、通过GPT-2模型计算文本的统计向量作为输入,计算输入文本的预测概率、文本的累积概率和文本的信息熵来实现这一目标,使用一个特定的语言模型M来处理输入文本,对于一个由n个单词组成的输入文本W={w1,w2,...,wi,...,wn}以及语言模型M词汇表的大小l,文本预测概率计算方式如下: 对于语言模型M输入文本中第i个词的预测概率计算公式如下: 在公式中,SMwi|w1,w2,...,wi-1表示其给定前面所有单词是w1,w2,...,wi-1的情况下,预测当前单词是wi的得分,SMpositionik|w1,w2,...,wi-1表示在给定前面所有单词是w1,w2,...,wi-1的情况下,对词汇表中所有token的得分进行求和; 步骤2.3、计算文本累积概率,计算方式如下: 对于语言模型M输入文本中第i个词的累积概率CMwi计算公式如下: 公式计算了输入文本第i个位置上,所有概率大于或等于ProMwi的token的概率之和,将输入文本中每个单词的累积概率拼接后,可以得到文本的累积概率CMW=[CMw1,CMw2,...,CMwn]; 步骤2.4、计算文本信息熵,计算方式如下: 信息熵是一个衡量在特定位置上词汇表中所有token概率分布不确定性的指标,对于文本中的第i个位置,定义EMi为该位置词汇表中所有token的概率分布的信息熵,具体计算方式如以下公式所示: 该公式通过求和计算了在给定前文的情况下,词汇表中每个token出现的概率以及概率的负对数似然,通过求积得到第i个词的信息熵,然后可以计算整个输入文本信息熵EMW=[EM1,EM2,...,EMn],将其作为输入文本统计特征的一部分; 步骤2.5、输入文本通过GPT-2模型计算得到的文本预测概率、累积概率和信息熵,被整合为一个统计向量; 步骤3.1、对于特征提取层,它的输入是文本的语义特征和文本统计特征,这些输入数据分别通过GRU和Transformer编码器进行处理,GRU接收文本的语义特征作为输入,这些特征通过从文本数据中提取得到,并蕴含了丰富的语义信息,GRU的输出是一个张量,该张量融合了序列中每个时间步的上下文信息,其维度包括批次大小、序列长度和特征维度,通过更新门和重置门,GRU能够有效地捕获序列数据中的长期依赖关系,并为模型提供详尽的时间序列特征表示,具体计算过程如下: 经过BERT模型的文本,文本序列的每个元素都变成了一个嵌入向量,接下来,这些向量作为输入传递给GRU,GRU的目标是捕获序列中的特征以及时间依赖; 在每个时间步t,GRU都会更新其隐藏状态ht,更新过程依赖于当前输入et、前一时间步的隐藏状态ht-1以及更新门zt和重置门rt; 更新门zt控制着从前一个隐藏状态ht-1到当前隐藏状态ht的信息流动,而重置门rt决定了多少“过去的信息”应该被忽略,这两个门的计算方式如下: zt=σWz[et;ht-1]+bz rt=σWr[et;ht-1]+br 在公式中,Wz和Wr是更新门和重置门的权重矩阵,bz和br是相应的偏置项,σ是sigmoid激活函数,et表示的是当前输入向量; 利用更新门和重置门的输出,GRU计算候选隐藏状态ht′,它是通过将当前输入et与重置门rt计算后的前一隐藏状态ht-1结合,并加入非线性激活函数tanh得到的,具体计算方式如公式所示: ht′=tanhW[rt·ht-1]+Uet+b 其中,W和U是GRU的权重矩阵,b是偏置项,tanh表示激活函数,最后更新门zt用于结合前一时间步的隐藏状态ht-1和当前的候选隐藏状态ht′来生成当前时间步的最终隐藏状态ht,具体计算方式如公式所示: ht=1-ztht-1+ztht′ 这个过程在序列的每个时间步上重复进行,最终GRU输出的隐藏状态序列H=h1,h2,...,hn,通过这种方式,GRU能够提供有用的特征表示; 输入文本经过统计特征计算得到的统计特征通过Transformer编码器进行处理,Transformer编码器对输入序列进行编码,输出的是一个包含了全局依赖信息的张量,Transformer编码器的输出张量的序列长度与输入相同,其中每个元素都是经过编码的,包含了位置信息和全局依赖信息; Transformer编码器接收一个向量作为输入,并将其转换为一系列位置相关的表示,这些表示能够捕捉输入向量的位置信息,Transformer编码器由输入层、多头注意力层、前馈网络、残差连接和归一化层组成,输入层将输入序列转换为模型能够处理的格式,而多头注意力层则计算输入序列的注意力权重,前馈网络对多头注意力层的输出进行进一步的线性和非线性变换,残差连接和归一化层则有助于稳定训练过程并避免深层网络中的梯度消失问题,其具体计算方式如下所示: 编码器首先将输入向量进行位置编码,经过位置编码后的输入序列会通过三个不同的权重矩阵生成查询Query、键Key和值Value三个不同的向量集合,这一步骤是多头注意力层的基础,它允许模型在后续步骤中计算每个元素对其他元素的影响,在多头注意力层中计算不同部分的输出向量,是通过查询向量、键向量、值向量、键向量的维度以及对应的权重矩阵来实现的,具体计算方式如以下公式所示: 在公式中,Q、K和V分别代表查询向量、键向量和值向量,WiQ、和是与之对应的权重矩阵,dk是键向量的维度,这个公式首先计算QWiQ和的点积与dk的平方根之比,得到一个注意力分数矩阵,然后通过Softmax函数将这些分数转换为概率,最后,得到加权的输出向量,这个输出向量是输入向量的一个转换,它包含了输入向量中每个元素对当前元素的贡献,多头注意力层的最终输出由以下公式计算得到: MultiHeadQ,K,V=ConcatHead1,Head2,...,HeadhWO 在这里,Concat表示向量拼接,WO表示是一个权重矩阵,用于在拼接后对特征进行线性变换,MultiHeadQ,K,V表示输出向量; 之后,多头注意力层的输出在经过残差连接和归一化处理后,会经过一个前馈网络Feed-ForwardNetwork,FFN,这是一个包含两个线性变换和一个非线性激活函数的神经网络,前馈网络的计算公式如下: FFNx=max0,xW1+b1W2+b2 在公式中,W1、W2是前馈网络的权重矩阵,x代表上一层的输入,b1和b2是偏置项,这个网络对上一层的输出进行进一步的线性和非线性变换,增加了模型的表达能力,最终这个输出与输入向量相加,并进行残差连接和归一化,得到编码器的最终输出; 步骤3.2、GRU和Transformer编码器的输出分别通过一个线性层进行线性变换获得文本的语义特征和统计特征,将其作为特征融合层的输入; 步骤3.3、特征融合层的作用在于整合不同特征的信息,使得分类模型能够从不同角度理解文本数据; 具体来说,经过特征提取层后,可以得到了两组新的特征向量S和P,特征融合层的目的是将这两组特征合并为一个单一的特征向量,以便后续的分类层可以利用这些综合信息进行决策; 接下来,通过拼接操作进行特征融合,即将S和P按元素顺序连接起来形成一个更长的特征向量F: F=[S;P] 在公式中,分号“;”表示向量的拼接操作,融合后的特征向量F包含文本语义特征和文本统计特征的信息,且维度是S和P维度的总和; 步骤3.4、在分类层中,首先对输入的特征向量进行线性变换,然后通过一个Dropout层随机地“丢弃”一部分神经元的输出,以减少网络对特定神经元的依赖,接下来通过ReLU激活函数,对每个神经元的输出进行非线性变换,使得网络能够学习非线性关系,再通过一个全连接层通过应用权重矩阵和偏置向量对输入特征执行线性变换,生成一个得分向量,其长度与目标类别的数量相同,向量中的每个元素代表模型预测输入文本属于特定类别置信度,之后通过Softmax函数,计算输入特征属于每个类别的概率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。