中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所王德胜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所申请的专利一种黑盒场景下的大语言模型生成内容安全测试系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121390056B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511960201.0,技术领域涉及:G06F40/284;该发明授权一种黑盒场景下的大语言模型生成内容安全测试系统及方法是由王德胜;孙治;廖珊;王一凡;万郅玙;熊坤;马浩涵;张玲设计研发完成,并于2025-12-24向国家知识产权局提交的专利申请。
本一种黑盒场景下的大语言模型生成内容安全测试系统及方法在说明书摘要公布了:本申请公开了一种黑盒场景下的大语言模型生成内容安全测试系统及方法,该系统包括:越狱提示词库模块用于存储对大语言模型进行安全性测试的越狱提示词;违规问答对模块用于存储涵盖不同类型的违规问答对;响应采集模块用于根据越狱提示词和查询请求构成的查询内容得到数据请求包;安全分析模块用于计算查询请求对应的响应数据与期望的违规回答之间的相似度,并将相似度作为安全性评分,将安全性评分输入自适应优化模块;自适应优化模块用于根据安全分析模块输出的安全性评分,使用遗传算法优化越狱提示词库模块输出的越狱提示词。本申请能够有效地对大语言模型生成内容的安全性进行测试。
本发明授权一种黑盒场景下的大语言模型生成内容安全测试系统及方法在权利要求书中公布了:1.一种黑盒场景下的大语言模型生成内容安全测试系统,其特征在于,包括: 越狱提示词库模块,用于存储对大语言模型进行安全性测试的越狱提示词,以诱导大语言模型输出不同类型的违规回答; 违规问答对模块,用于存储涵盖不同类型的违规问答对;每个违规问答对包括查询请求及期望的违规回答;查询请求模拟用户对违规主题的查询,用于输入大语言模型中进行查询,以使大语言模型输出对应的回答;期望违规回答为期望大语言模型返回的与查询请求对应的回答; 响应采集模块,用于对越狱提示词库模块输出的越狱提示词和违规问答对模块输出的查询请求构成的查询内容进行预处理和封装,以得到数据请求包,将所述数据请求包输入大语言模型中,并接收大语言模型返回的响应数据,即在黑盒场景中与大语言模型进行交互,并将所述响应数据发送至安全分析模块;所述响应数据与查询内容相对应;所述响应数据为文本形式; 安全分析模块,用于计算查询请求对应的响应数据与期望的违规回答之间的相似度,并将所述相似度作为安全性评分,将所述安全性评分输入自适应优化模块; 自适应优化模块,用于根据安全分析模块输出的安全性评分,使用遗传算法优化越狱提示词库模块输出的越狱提示词; 所述自适应优化模块具体用于: 初始化查询请求、拒绝关键词列表以及相关超参数;所述相关超参数包括交叉概率、变异概率、精英比例;所述拒绝关键词列表包括拒绝关键词;所述拒绝关键词为大语言模型拒绝执行违规或不当请求时出现的典型词语或短语,用于判定大语言模型是否触发安全防护机制; 利用大语言模型对越狱提示词进行改写,同时保持改写前后的越狱提示词在逻辑与语义上的一致性,同时对越狱提示词进行词汇级变换和句法级变换,将改写后的越狱提示词作为初始种群;其中,所述词汇级变换指对提示词中词汇或短语层面的替换与变换操作,包括同义词替换、近义短语替换以及句内词序微调;所述句法级变换指对提示词在句法或模板层面的重构,包括句子拆分或合并、从属主句位置调整以及上下文前置或后置; 所述安全分析模块具体用于: 计算种群中每个个体的适应度分数,并将适应度分数作为每个个体的安全性评分;根据种群中的所有个体及每个个体的安全性评分,构建得分字典,筛选出高贡献词;在其他个体中用所述高贡献词的近义词替换原词,生成新的语句级变异个体;使用遗传算法对越狱提示词进行优化,在每一轮迭代中,所有待优化的越狱提示词组成种群,种群中的每个越狱提示词即一个个体; 再次计算每个个体的适应度分数;设置精英个体比例,对种群中的个体按照适应度分数降序排列,并按精英比例保留高适应度个体作为精英个体,其余个体作为父代个体进入繁殖阶段;在选中的父代个体间以语句为单位执行多点交叉,生成子代;对子代利用大语言模型改写并保证语义连贯与多样性,将精英个体与新生成的子代合并,形成下一代种群;精英个体指的是在当前种群中依据适应度分数排名靠前的个体; 若达到最大迭代次数,或大语言模型输出的响应数据中不包含任何拒绝关键词,即认为成功绕过大语言模型自身的安全机制,则中止迭代; 返回当前适应度最高的个体,作为优化后的越狱提示词; 所述计算种群中每个个体的适应度分数,并将适应度分数作为每个个体的安全性评分,包括: 将个体的响应数据与对应的期望违规回答分别输入预训练的嵌入模型,得到响应数据的低维嵌入向量与期望违规回答的低维嵌入向量; 计算响应数据的低维嵌入向量与期望违规回答的低维嵌入向量之间的余弦相似度并将其作为个体的适应度分数;余弦相似度的计算公式为: 其中,为响应数据的嵌入向量,为期望违规回答的嵌入向量,为范数;所述余弦相似度的取值范围为,值越大,表示响应数据与期望违规回答的语义相似度越高; 所述根据种群中的所有个体及每个个体的安全性评分,构建得分字典,筛选出高贡献词,包括: 根据种群中每个个体的文本内容,初始化得分字典,用于存储每个词与其对应的安全性得分,每个词的安全性评分即其所属个体的安全性评分; 遍历初始得分字典,计算每个词的平均安全性评分: 若某个词在前一轮迭代中已存在于得分字典中,则依据动量更新规则对其安全性评分进行平滑更新: 其中,为某个词在当前迭代下的安全性评分,为某个词上一轮迭代安全性评分,为本轮计算得到的平均安全性评分;若某个词为新词,则其安全性评分直接赋值为当前平均安全性评分; 将更新后的得分字典按分数值降序排列,选取得分排名前K的词作为高贡献词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所,其通讯地址为:610207 四川省成都市双流区西南航空港经济开发区工业集中区内;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励