山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)郭莹获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)申请的专利一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117312989B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311380815.2,技术领域涉及:G06F18/2415;该发明授权一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统是由郭莹;张颖;王英龙;杨美红;吴晓明;潘景山;杨晓晗;刘尚旭设计研发完成,并于2023-10-24向国家知识产权局提交的专利申请。
本一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统在说明书摘要公布了:本发明涉及一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统,包括:数据预处理:设置增量同步数据获取任务,进行数据采集和清洗,加载到Mysql环境当中;列语义识别:基于数据集的列关系属性及属性关系构建词汇关系图,作为双层GCN图卷积网络输入来获取GCN全局语义特征嵌入;通过RoBERTa预训练模型线性化编码,将初步列向量输入到三层Tansformer使用其多头列注意力机制来获取局部语义特征嵌入,将并联输出的嵌入向量通过注意力机制融合权值,得到全局‑局部交互的上下文语义信息,并使用Adaline进行分类预测;本发明构建了上下文列语义识别模型,基于关系列投影进行元数据的语义识别。
本发明授权一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统在权利要求书中公布了:1.一种基于GCN和RoBERTa的上下文感知的列语义识别方法,其特征在于,包括: 数据预处理:编写Spark作业执行将Hudi与MySQL数据链路打通操作来设置增量同步数据获取任务,并且按照固定维度分区进行数据采集和清洗,采集得到的数据按照覆盖现有数据的形式加载到Mysql环境当中; 列语义识别:基于GCN和RoBERTa构造的列语义识别模型作为预测模型;使用数据集的列关系属性及属性关系构建词汇关系图,作为双层GCN图卷积网络输入来获取GCN全局语义特征嵌入;与此同时,通过RoBERTa预训练模型线性化编码,将初步列向量输入到三层Tansformer使用其多头列注意力机制来获取局部语义特征嵌入,将GCN以及RoBERta的并联输出的嵌入向量通过注意力机制融合权值,得到全局-局部交互的上下文语义信息,并使用Adaline进行分类预测; 标签纠错及更新优化:通过Self-Attention机制实现标签之间地共现纠错,并且通过交叉熵损失函数对模型参数优化以及抽取增量数据循环更新优化模型; 信息融合预测分类,包括: 首先,将GCN全局语义特征嵌入与RoBERTa局部语义特征嵌入通过注意力机制融合权值,得到全局-局部交互的上下文语义特征向量; 其次,在RoBERTa预训练模型训练过程中,将输出的向量经过MLP全连接层以及Softmax函数归一化操作,最终输出每个样本对应的所属语义类别概率,进行预测分类;采用Adaline算法对输出的所属语义类别概率进行整合,包括:采用多路MLP的方法,将经过不同层数全连接层得到的结果组成一个向量,该向量即Adaline算法的输入,Adaline算法根据输出的所属语义类别概率,给不同MLP的输出进行打分;其中,输出的所属语义类别概率越接近标签的输出值将得到更高的分数;接下来,根据这个打分的分布,在一个正态分布上进行采样,并且根据采样值对每个打分进行了不同权重的累加,按照该累加的值获得当前样本的加权得分,获得样本最终所属分类的概率; 在该方法中,通过Self-Attention机制实现标签之间地共现纠错,并且通过交叉熵损失函数对模型参数优化以及抽取增量数据循环更新优化模型,包括: 首先,利用Transformer模型Encoder部分的Self-Attention机制实现标签之间的共现,使每一个输入标签都得到对应的输出向量,进一步分类映射到真实的类别标签; 其次,损失函数采用联合训练对模型参数进行更新; 最后,通过设定固定时间周期,从hudi数据湖中抽取的增量数据来更新优化模型; 通过Self-Attention机制实现标签之间地共现纠错,包括: 搭建一个共现标签搭建的纠错模型,将上述预测模型预测的不完全正确的标签序列y1映射到更正确的标签序列y2;纠错模型选择并行化的且具有顺序无关性的Transformer模型的Encoder模块,纠错模型输入为预测模型预测的标签,标签对每一个标签进行向量化,利用Transformer模型Encoder部分的Self-Attention机制实现标签之间的共现,每一个输入标签都得到对应的输出向量,进一步分类映射到真实的类别标签,y={y0,y1,...,yn-1},其中每一个输出位置都是关于输入的标签序列的概率最大化; 更新优化模型,包括: 首先,采用三元熵损失函数联合训练,对预测模型参数进行更新,以及采用交叉熵损失函数对纠错模型进行优化更新; 其次,通过设定固定时间周期,从hudi数据湖中抽取的增量数据来更新优化预测模型; 三元熵损失函数,包括: 采用Adam优化器来优化目标函数,并通过反向传播来更新每轮迭代过程中预测模型的各种参数,直到预测模型达到拟合要求;并且使用三元熵损失函数采用联合训练对预测模型参数进行微调,通过两两计算交叉熵并对其进行平均池化操作,获取实际输出与期望输出的距离; 对于每个样本,预测模型预测概率分布为实际的标签真值分布表示为y={y0,y1,...,yn-1},对于每一对类别i和j,计算交叉熵损失公式如Ⅸ所示: 生成个交叉熵损失值,对这些交叉熵损失值进行平均池化averagepooling,得到最终的三元熵损失如Ⅹ所示:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院),其通讯地址为:250014 山东省济南市科院路19号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。