北京信联数安科技有限公司;信联科技(南京)有限公司;北京邮电大学李明柱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京信联数安科技有限公司;信联科技(南京)有限公司;北京邮电大学申请的专利一种用于多模态大模型的越狱攻击测试方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119740229B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510245745.2,技术领域涉及:G06F21/55;该发明授权一种用于多模态大模型的越狱攻击测试方法是由李明柱;张胜;林冠洲;柴秀楠;于明宇;吴嘉豪;秦素娟设计研发完成,并于2025-03-04向国家知识产权局提交的专利申请。
本一种用于多模态大模型的越狱攻击测试方法在说明书摘要公布了:本发明涉及一种用于多模态大模型的越狱攻击测试方法,首先基于各个预设恶意提示文本,获得各个恶意提示最优文本;然后以获得各恶意提示最优文本所对应恶意提示文本分别关于目标多模态大语言模型的生成结果,以及基于各恶意提示最优文本,构建各恶意提示测试文本;最后由各恶意提示测试文本分别与对应关于目标多模态大语言模型的生成结果进行组合,构成各恶意测试用例,完成了对目标多模态大语言模型的自动化越狱攻击测试,设计方案通过优化恶意测试用例的生成,提高恶意测试用例的相关性和语义准确性,进而提高越狱攻击的成功率,并增强攻击的多样性和适应性,以此评估和改进多模态大语言模型的安全性,提高多模态大语言模型的安全性和鲁棒性。
本发明授权一种用于多模态大模型的越狱攻击测试方法在权利要求书中公布了:1.一种用于多模态大模型的越狱攻击测试方法,其特征在于:基于预设数量各个预设恶意提示文本,执行如下步骤,针对目标多模态大语言模型进行攻击测试; 步骤A.基于各个恶意提示文本分别对应预设各突变策略下的突变版本恶意文本,通过迭代方式,针对关于目标识别模型的恶意攻击成功率ASR进行判断,获得各个恶意提示最优文本,然后进入步骤B; 步骤B.分别针对各恶意提示最优文本所对应的恶意提示文本,将恶意提示文本输入目标多模态大语言模型的生成结构,获得相应的生成结果,即获得各恶意提示最优文本所对应恶意提示文本分别关于目标多模态大语言模型的生成结果; 根据目标多模态大语言模型生成结构所输出生成结果的对象类型,构建关于对象类型的提示词,并将该提示词分别与各恶意提示最优文本进行组合,构成各个恶意提示测试文本; 然后进入步骤C; 步骤C.将各个恶意提示测试文本分别与其对应关于目标多模态大语言模型的生成结果进行组合,构成各个恶意测试用例,由各个恶意测试用例分别输入目标多模态大语言模型,针对目标多模态大语言模型进行攻击测试; 步骤A中分别针对各个恶意提示文本,执行如下步骤A1至步骤A4,获得各个恶意提示最优文本; 步骤A1.初始化n=1,将恶意提示文本作为第n次迭代下的待分析恶意文本,并进入步骤A2; 步骤A2.获得第n次迭代下待分析恶意文本分别对应预设各突变策略下的突变版本恶意文本,并进一步获得各突变版本恶意文本分别针对目标识别模型攻击的恶意攻击成功率ASR,然后进入步骤A3; 步骤A3.判断各突变版本恶意文本的恶意攻击成功率ASR中是否存在大于预设恶意攻击成功率阈值的恶意攻击成功率ASR,是则获得大于预设恶意攻击成功率阈值的各恶意攻击成功率ASR分别对应的突变版本恶意文本,作为各个突变版本筛选恶意文本,并进入步骤A4;否则步骤A针对该恶意提示文本的处理结束; 步骤A4.判断是否满足迭代跳出条件,是则获得各突变版本筛选恶意文本中最大恶意攻击成功率ASR所对应的突变版本筛选恶意文本,作为该恶意提示文本对应的恶意提示最优文本;否则将各个突变版本筛选恶意文本作为第n+1次迭代下的各个待分析恶意文本,并针对n的值进行加1更新,再返回步骤A2; 步骤C中,恶意测试用例输入目标多模态大语言模型,若目标多模态大语言模型理解结构对恶意测试用例识别为恶意类别,则恶意测试用例对目标多模态大语言模型的恶意攻击失败;若目标多模态大语言模型理解结构对恶意测试用例识别为非恶意类别,则恶意测试用例对目标多模态大语言模型的恶意攻击成功。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京信联数安科技有限公司;信联科技(南京)有限公司;北京邮电大学,其通讯地址为:101100 北京市大兴区北京经济技术开发区科谷一街10号院6号楼6层604(北京自贸试验区高端产业片区亦庄组团);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。