复旦大学万城瑞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利基于元强化学习的非正交多址系统物理层安全通信方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116405930B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310259528.X,技术领域涉及:H04W12/033;该发明授权基于元强化学习的非正交多址系统物理层安全通信方法是由万城瑞;周小林;王涵设计研发完成,并于2023-03-16向国家知识产权局提交的专利申请。
本基于元强化学习的非正交多址系统物理层安全通信方法在说明书摘要公布了:本发明属于通信技术领域,具体为一种基于元强化学习的非正交多址系统物理层安全通信方法。本发明包括:构建最大化系统物理层安全和速率为目标的功率分配优化目标函数,其中考虑存在多个窃听者窃听信息的情况;采用元强化学习网络对系统物理层进行安全加密,实现非正交多址系统物理层安全通信;本发明克服了现有基于深度强化学习的功率分配方法的缺陷,解决现有技术不能应用于变化的信道环境因而难以实际应用问题,提升了非正交多址系统物理层的安全性。
本发明授权基于元强化学习的非正交多址系统物理层安全通信方法在权利要求书中公布了:1.一种基于元强化学习的非正交多址系统物理层安全通信方法,其特征在于,包括构建最大化系统物理层安全和传输速率为目标的功率分配优化目标函数;采用元强化学习网络,对系统物理层进行安全加密,实现非正交多址系统物理层安全通信; 一构建最大化系统物理层安全和传输速率为目标的功率分配优化目标函数所述非正交多址系统,包含无线系统发送端用户、接收端基站,以及恶意窃听端; 设发送端第i个用户发送信号Si表示为: 其中,Ptotal为发送端的发射总功率,αi为第i个用户的功率分配因子,Xi为第i个用户的信息信号;i=1,2...n,n为用户数;用户‑基站、用户‑窃听端以及基站‑窃听端的信道分别用信道系数表示:hsd,hse,hde,信道系数为服从瑞利分布的随机变量; 设接收端基站处的接收信号yl表示为: 其中,分别表示从无线信号源到接收端处的信道系数,nd为接收端加性高斯白噪声; 设非法窃听端处的接收信号ye表示为: 其中,分别表示从无线信号源到非法窃听端处的信道系数,nd为接受端加性高斯白噪声,na为基站处发送的干扰窃听者的人工噪声; 在接收端,采用连续干扰消除技术,按照信号功率大小区分解码顺序,第1个用户的信干噪比为: 第2个用户的信干噪比为: 依此类推,第n个用户的信干噪比为: 其中,为合法接受端的噪声功率; 假设窃听端的窃听能力强,能够分辨不同的用户并对各个用户信号单独解码;同时,模型系统存在多个窃听端,假设多个窃听端中存在一个窃听能力最强的窃听用户,若系统在考虑最强窃听端时保证信息传输的安全,则表示系统在多个窃听端下都可以进行安全的信息传输;以下考虑窃听能力最强的窃听端的情况; 窃听端第1个用户的信干噪比为: 窃听端第2个用户的信干噪比为: 窃听端第个n用户的信干噪比为: 其中,为窃听端的噪声功率; 为了使系统的物理层安全得到加强,以系统的安全和速率为优化目标,根据安全速率的定义,信号的安全速率等于合法端速率与非法窃听端速率之差: 其中,Rs为合法端用户速率,Re为非法窃听端速率,[x]+=max{0,x},当计算结果为负值时,安全速率为0,即无法进行安全可靠的通信; 安全和速率定义为系统中所有用户的安全速率之和: 于是,NOMA上行链路模型下的优化目标函数如下: Pmin≤αi*Ptotal≤Pmax其中,Pmin,Pmax为系统中用户的最小发射功率与最大发射功率;优化目标函数的解为使得系统安全和速率最大的一组功率分配因子; 二采用元强化学习网络,对系统物理层进行安全加密; 具体步骤为: S1、元强化学习网络采用DQN和DQN_target双网络结构,两个网络结构相同,用全连接层网络实现动作‑行为值函数Q;每次迭代DQN网络参数都进行更新,而DQN_target网络为目标网络,为最终训练完成进行应用的网络,其参数更新为每隔syn_num步克隆DQN网络的参数;随机初始化DQN网络、DQN_target网络的网络参数;设置初始化参数为θ,待更新参数为θ; S2、为解12式所示优化问题,对连续动作离散化,具体使用编码离散动作至用户功率分配因子的增、减以及不变三种状态; S3、元强化学习训练任务集合为预先设置的K组不同的信道分布参数,具体为服从不同标准差与期望的无线信道分布,从元强化学习网络训练任务集合中选择M组MK不同的信道环境作为元强化学习网络训练的任务,对于每个任务进行如下步骤: S3.1、初始化采样到的任务环境,初始化经验回放缓存;相应的DQN以及DQN_target载入相同的参数temp_param;初始化优化器为Adam优化器,优化参数为DQN的参数; S3.2、进行episode轮次的训练,每一轮训练重置环境得到初始状态state1,当训练没有结束时,根据随时间衰减的ε‑greedy策略,决定当前动作是随机产生的动作还是依据DQN网络输出q值最大的动作,动作标记为a1;并将动作带入环境中进行状态更新得到state2;选择当前动作的回报r1,以及表示该回合是否中止的标记done,将得到的state1,a1,r1,state2,done存入经验回放缓存中,依此类推,得到staten,an,rn,staten+1,done,直至达到最小缓存经验数量,即开始接下去的训练; S3.3、根据batch_size从经验缓存中随机抽取批量经验元组,计算损失函数的值,并进行梯度反向传播;损失函数的公式如下: 其中,rn为当前经验的回报,γ为折扣因子,用于减少下一步对于整体学习方向的贡献度,QtargetSn+1,an+1为目标网络对下一状态输出的q值,QSn,an即为当前网络在当前状态下输出的q值; S3.4、每间隔syn_num步将DQN的网络参数复制给DQN_target网络; S3.5、每个回合进行K次梯度下降,最后所得任务ii=1,2,3,...,M的DQN_target参数为θ′; S4、进行元强化学习网络学习梯度更新,按照下式: 其中,∈为学习更新步长,具体到每次任务的学习中,可写为待更新参数变量temp_param的更新,如下式:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励