Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学张剑获国家专利权

杭州电子科技大学张剑获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种基于混合策略博弈的对抗训练微调方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116562362B

龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310500553.2,技术领域涉及:G06N3/094;该发明授权一种基于混合策略博弈的对抗训练微调方法是由张剑;钟哲华;吕秋云;王震设计研发完成,并于2023-05-06向国家知识产权局提交的专利申请。

一种基于混合策略博弈的对抗训练微调方法在说明书摘要公布了:本发明公开了一种基于混合策略博弈的对抗训练微调方法。本发明步骤如下:S1:确定预训练模型、目标数据集、训练任务;S2:微调预训练模型;S3:设计基于混合策略博弈的对抗训练微调目标函数;S4:求解混合策略博弈;S5:生成与更新对抗扰动;S6:更新模型参数;S7:训练与评估模型。本发明包括将混合策略博弈引入预训练模型进行微调的对抗训练中,用的博弈论方法‑熵镜下降法推导出纳什均衡来解决上述博弈。此外本发明还利用采样定理和随机梯度郎之万动力学采样法将该方法简化为一种性能优化的实用算法。通过本发明方法训练得到的模型在泛化性能和鲁棒性能上都可以得到提升。

本发明授权一种基于混合策略博弈的对抗训练微调方法在权利要求书中公布了:1.一种基于混合策略博弈的对抗训练微调方法,其特征在于包括如下步骤: S1:确定预训练模型、目标数据集、训练任务,以文本分类作为目标任务,选取文本分类目标数据集,并对数据进行预处理; S2:微调预训练模型; S3:设计基于混合策略博弈的对抗训练微调目标函数; S4:求解混合策略博弈; S5:生成与更新对抗扰动; S6:更新模型参数; S7:训练与评估模型; 步骤S3设计基于混合策略博弈的对抗训练微调目标函数,具体实现如下: 将模型从纯策略转换为混合策略,让模型参数θ服从概率分布,即θ转变成一个连续的随机变量;将对抗扰动δ从确定的扰动值转换为一个连续随机变量,服从概率分布;将对抗训练的混合策略博弈重新定义为:两个博弈方分别为模型和对抗扰动,双方的策略分别为其参数的分布,而博弈的收益为目标函数的值; 给定目标预训练模型fθ·,下游目标数据集D,对抗训练目标表示为以下博弈过程: 其中,lfθx+δ,fθx表示对抗训练目标函数,λ为调谐参数;考虑Θ和Δ上的所有概率分布集合;如果用MΘ和MΔ表示Θ和Δ上的所有Borel概率度量的集合,则将原对抗训练的目标函数转换为以下的Min-Max函数: 步骤S4具体方法如下: 使用熵镜像下降算法对Min-Max博弈优化进行求解: 其中,P表示上述Min-Max博弈优化目标;μt和vt分别为第t轮的得到的扰动和参数分布;给定随机变量z,对应梯度h和学习率η,EMD中的MD迭代可表示为: 将该MD迭代过程扩展到无穷维,可得: 由于无法获得μ的密度函数和v的密度函数,采用经验平均值代替对应分布的期望 其中,表示Kδ次采样的δ均值,表示Kθ次采样的θ均值;同时,MD迭代表示为一种更容易处理的形式: 因此通过T轮的MD迭代能够求解上述纳什均衡博弈问题。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。