内蒙古工业大学李燕获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉内蒙古工业大学申请的专利基于蒙古语的恶意提示数据集扩充方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121166935B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511264872.3,技术领域涉及:G06F16/36;该发明授权基于蒙古语的恶意提示数据集扩充方法是由李燕;王钢;王浩设计研发完成,并于2025-09-05向国家知识产权局提交的专利申请。
本基于蒙古语的恶意提示数据集扩充方法在说明书摘要公布了:本发明涉及数据扩充技术领域,特别涉及一种基于蒙古语的恶意提示数据集扩充方法。本发明通过提取蒙古语基础恶意提示语料库和通用语料库中的高频词根和词缀并结合形态学解析,能够构建具有针对性的恶意提示样本,增强蒙古语安全评测数据集的多样性和真实性,通过采用遗传算法对候选恶意提示样本进行优化,使得扩充样本更加符合蒙古语的语法和语义规则,确保攻击样本在蒙古语场景中的有效性,通过使用对抗性生成策略对扩充数据集进行增强,提高了数据集的鲁棒性和对抗性,能够模拟现实场景中可能出现的攻击行为,从而为蒙古语场景中的安全评测提供了有效的样本生成工具,提升了蒙古语模型的抗攻击能力。
本发明授权基于蒙古语的恶意提示数据集扩充方法在权利要求书中公布了:1.一种基于蒙古语的恶意提示数据集扩充方法,其特征在于,包括: 获取蒙古语基础恶意提示语料库和蒙古语通用语料库,并提取所述蒙古语通用语料库的高频词根集合与高频词缀集合; 提取所述蒙古语基础恶意提示语料库的核心恶意语义特征,并采用蒙古语词切分模型对所述核心恶意语义特征进行形态学解析,得到恶意词根子集与恶意词缀子集; 将所述恶意词根子集与高频词根集合进行比对筛选,得到可替换词根库,将所述恶意词缀子集与高频词缀集合进行比对筛选,得到可替换词缀库; 获取可替换词缀库中每个同功能候选词缀的词缀形态属性和词缀语法属性以及可替换词根库中每个同词性候选词根的词根形态属性和词根语法属性,并根据每个所述词缀形态属性的结尾元音类型和词根形态属性的首字母元音类型获取元音和谐匹配值; 根据每个所述词缀形态属性的首字母连接元音和词根形态属性的结尾辅音类型获取元辅音连接适配度,并根据每个所述元辅音连接适配度和元音和谐匹配值获取对应形态兼容性评分; 根据每个所述词缀语法属性的词缀功能和词根语法属性的常用搭配词缀类型获取功能关联度,根据每个所述词缀语法属性的适用词性范围和词根语法属性的词性获取词性匹配度,并根据每个所述词性匹配度和功能关联度获取对应语法适配度评分; 获取每个所述同功能候选词缀和同词性候选词根分别在蒙古语基础恶意提示语料库和蒙古语通用语料库中的第一共同出现概率和第二共同出现概率,并根据每个所述第一共同出现概率和第二共同出现概率获取恶意场景适配度; 根据每个所述词缀语法属性的语义指向和词根语法属性的语义范畴获取语义关联强度,并根据每个所述语义关联强度和恶意场景适配度获取对应语义兼容性评分; 根据每个所述语义兼容性评分、语法适配度评分和形态兼容性评分获取对应同功能候选词缀和同词性候选词根的语法兼容性系数,并判断每个所述语法兼容性系数是否大于预设阈值系数; 若所述语法兼容性系数大于预设阈值系数,则判定该语法兼容性系数所对应的同功能候选词缀和同词性候选词根为有效组合对; 对每个所述有效组合对进行语义一致性校验并提取检验合格的候选恶意提示样本,并通过遗传算法对候选恶意提示样本进行迭代优化,生成初始扩充样本集; 对所述初始扩充样本集进行多维度过滤得到初步优化数据集,并采用对抗性生成策略对所述初步优化数据集进行增强,生成对抗性扩充样本; 将所述对抗性扩充样本与初步优化数据集合并得到最终扩充数据集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人内蒙古工业大学,其通讯地址为:010052 内蒙古自治区呼和浩特市新城区爱民路(北)49号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励