西北大学孙霞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北大学申请的专利一种编程题错误行代码类型的分类方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119621968B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411666200.0,技术领域涉及:G06F16/35;该发明授权一种编程题错误行代码类型的分类方法及系统是由孙霞;杨沂东;崔灿;吴昊;王宇泽设计研发完成,并于2024-11-20向国家知识产权局提交的专利申请。
本一种编程题错误行代码类型的分类方法及系统在说明书摘要公布了:本发明属于文本分类技术领域,公开了一种编程题错误行代码类型的分类方法,本发明的目的是提供一种编程题错误行代码类型的分类方法、存储介质及电子设备。通过本发明,能够更充分利用正误代码间的关系,更准确地进行编程题错误代码的分类,提升代码错误分类的准确性和效率。本发明的一种编程题错误行代码类型分类方法、存储介质及电子设备,通过UniXcoder提取代码向量,降低特征工程复杂性;引入层次从属矩阵增强错误类型关联性,提高预测精度;使用注意力机制捕捉错误代码与参考代码的相关性,进而提升分类准确性,从而增强模型整体表现。
本发明授权一种编程题错误行代码类型的分类方法及系统在权利要求书中公布了:1.一种编程题错误行代码类型的分类方法,其特征在于,包括以下步骤: S1,对开源编程题数据集进行预处理; 以题目ID为归类依据对数据集进一步分类,使属于同一题目的编程题代码保存至同一目录下,同时去除丢失了代码文件的数据记录,得到多个单一题目代码数据集; S2,对上述每一个单一题目代码数据集,进行错误代码与正确代码的比照配对,获取配对数据集;在每个单一题目代码数据集中,使用代码预训练模型获取每一个错误代码与正确代码的向量表示,重复循环迭代计算错误代码向量与每个正确代码向量的语义相似度,找到错误代码对应的一个与其最相似的正确代码作为其配对参考代码; 将代码进行分行处理,将其从整段文本形式转为数组形式,数组中每一元素为一行代码;从原始数据集获取错误代码的分行错误类型,每个错误行代码都有主要错误类型及对应进一步细分的子错误类型;分析上述错误类型的从属包含关系,得到错误从属矩阵; 最终获得层次标签从属矩阵和错误行代码比对分类数据集,每行数据包含错误代码分行数组、正确参考代码分行数组、错误代码的分行错误主类型标签数组、错误代码的分行错误子类型标签数组; S3,建立分类模型,将S2得到的每条数据中的错误代码分行数组、正确参考代码分行数组中每一行代码文本输入预训练模型,得到代码错误分类表示集,所述代码错误分类表示集包括错误代码分行向量表示集、正确参考代码分行向量表示集、正误代码分行注意力表示集、正误代码分行信息融合表示集; S4,计算分类标签,对S3得到的正误代码分行信息融合表示集经过线性层得到错误位置行号和主要错误类型标签;将正误代码分行信息融合表示集和上述得到的主要错误类型标签向量进行拼接,经过线性层后乘上S2所属错误从属矩阵,得到细分的子错误类型; S5,计算损失值,对S4所获取的错误位置行号与真实错误行号通过交叉熵损失函数得到定位损失值;对S4所获取主要错误类型标签与真实主要错误类型标签通过负对数似然损失函数得到主类损失值;对S4所获取细分子类型标签与真实细分子类型标签通过负对数似然损失函数得到子类损失值;将三者相加得到最终损失函数,并使用所述损失函数对S3和S4中的模型进行迭代至最优,得到编程题错误行代码分类模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北大学,其通讯地址为:710127 陕西省西安市雁塔区太白北路229号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励