Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学任婧获国家专利权

电子科技大学任婧获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利基于深度强化学习的无线传感网络路由算法的自适应选择方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116471645B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310443061.4,技术领域涉及:H04W40/10;该发明授权基于深度强化学习的无线传感网络路由算法的自适应选择方法是由任婧;孙超;宋彤雨;廖建鑫;郑建功;郭孝通;王晟;徐世中;王雄设计研发完成,并于2023-04-23向国家知识产权局提交的专利申请。

基于深度强化学习的无线传感网络路由算法的自适应选择方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的无线传感网络路由算法的自适应选择方法,在执行无线传感网络数据收集的过程中,部署在汇聚节点上的智能体将各个传感器节点的位置、剩余能量和缓存队列长度归一化后输入决策网络,对路由算法进行决策;考虑到传感器节点能量受限,新决策出的路由算法,由能量和计算资源充裕的汇聚节点告知网络中的各个传感器节点。考虑到由于转发的数据量不同,传感器节点的能量消耗速率和排队状态也不同,所以路由算法决策采用在线的方式,在节点状态的相对变化达到一定程度后,智能体的决策网络将再次进行决策,选择新的路由算法。本发明能够随着传感器节点的能量和排队状态变化,为其提供适时的路由算法调整,实现能量效率和QoS的双重优化。

本发明授权基于深度强化学习的无线传感网络路由算法的自适应选择方法在权利要求书中公布了:1.一种基于深度强化学习的无线传感网络路由算法的自适应选择方法,其特征在于,包括以下步骤: 1、在仿真环境中,使用深度强化学习算法对智能体进行训练 根据实际部署,在仿真环境中建立一个由A个电池供电的传感器节点n1,…,nA以及一个连接电源的汇聚节点n0构成的无线传感网络,其中,汇聚节点n0位于原点处,按照实际环境部署位置,在仿真环境中部署各个传感器节点ni,i=1,…,A以及汇聚节点n0; 对于传感器节点ni,定义其邻居集合为在传感器节点ni通信范围的所有其它节点的集合,所述的其它节点为传感器节点或汇聚节点n0; 所有传感器节点ni,i=1,…,A,每TR秒进行一轮数据传输,即每个传感器节点ni,i=1,…,A收集TR秒数据后,将收集到的数据通过多跳路由发送给汇聚节点n0;每个传感器节点ni,i=1,…,A的最大缓存空间为L,传输带宽为W,当传感器节点正在发送数据时,新到达的数据包将会被存储在它的缓存队列中,等待传感器节点空闲时再进行中继,而超出缓存空间的数据包则会被直接丢弃; 有B个可选的路由算法m1,…,mB,定义全部路由算法集合为汇聚节点n0上部署一个用于选择路由算法的智能体,每经过Ω轮传输进行一次路由算法决策; 使用基于演员-评论家Actor-Critic的深度强化学习算法对智能体进行训练: 1.1、在[1,B]范围内随机生成一个整数j,选择路由算法mj作为路由算法,并根据各个传感器节点ni,i=1,...,A的邻居集合计算出每个传感器节点ni,i=1,...,A到达汇聚节点n0的路由; 1.2、根据传感器节点ni,i=1,...,A部署位置,将邻居信息和路由信息写入各个传感器节点ni,i=1,...,A的配置文件中; 1.3、将各个传感器节点ni,i=1,...,A的位置信息写入汇聚节点n0,对于传感器节点ni,其位置信息为:以汇聚节点n0为原点建立的二维直角坐标系下,传感器节点ni的横纵坐标 1.4、各个传感器节点ni,i=1,...,A持续对环境进行检测并收集数据,每间隔TR秒按照路由信息向汇聚节点n0发送收集到的数据; 1.5、无线传感网络每进行Ω轮传输,智能体将会决策出新的路由算法,对于第k次决策,具体的决策过程如下: 1.5.1、各个传感器节点ni,i=1,...,A向汇聚节点n0发送各自的剩余能量和缓存队列长度 1.5.2、汇聚节点n0对每个传感器节点ni,i=1,...,A的剩余能量缓存队列长度和位置坐标利用每一维的最大值进行归一化处理: 其中,E为传感器节点的能量最大值,L为缓存队列长度的最大值即最大缓存空间,H、V为横纵坐标最大值; 将归一化后的剩余能量、缓存队列长度和位置坐标拼接成一个一维向量输入智能体的决策网络; 1.5.3、智能体的决策网络计算输出概率向量其中,表示在第k次决策中选择路由算法mb的概率,b=1,…,B; 1.5.4、在0,1]范围内随机生成一个浮点数,浮点数位于概率向量的概率累积分布函数的第s个区间,选择路由算法ms作为新的路由算法; 1.5.5、汇聚节点n0将智能体新决策出的路由算法通告给各个传感器节点ni,i=1,...,A,然后在整个无线传感网络中使用新的路由算法,为各个传感器节点ni,i=1,...,A计算到达汇聚节点n0的路由; 1.6、不断执行步骤1.4到步骤1.5,直到至少一个传感器节点能量耗尽,此时无线传感器网络瘫痪,然后对智能体的决策网络进行参数更新:将智能体的决策网络作为演员网络,路由算法决策时刻的一维向量作为演员网络、评论家网络的输入,采用基于演员-评论家Actor-Critic的深度强化学习算法进行训练,训练过程中使用的奖励函数Rk根据无线传感器网络的路由性能指标:传感器节点能量消耗、平均端到端时延和丢包率进行计算,具体计算公式为: 其中,表示第k次路由算法决策与第k+1次路由算法决策之间,所有传感器节点消耗的总能量,表示第k次路由算法决策与第k+1次路由算法决策之间,汇聚节点收到的所有数据包的平均端到端时延,表示第k次路由算法决策与第k+1次路由算法决策之间的丢包率;ε、Dmin和Dmax是用于归一化的常数;是反映能量效率指标的奖励值,是反映QoS指标的奖励值,ω是奖励值和奖励值这两部分奖励值的权重系数,根据特定的应用场景和用户偏好进行设置,对于QoS应用,ω设置得偏小一些,对于非QoS应用,ω设置得偏大一些; 1.7、将各个传感器节点ni,i=1,...,A的能量恢复为100%,重复步骤1.1到步骤1.6,不断对演员和评论家网络进行网络权重的更新,直至收敛; 2、将无线传感器网络部署到实际环境中 按照步骤1.1-1.3的方法进行处理,然后根据各个传感器节点ni,i=1,...,A以及汇聚节点n0的部署位置在实际环境中进行部署,其中,汇聚节点n0上部署一智能体,其决策网络为步骤1训练获得的智能体的决策网络; 3、所有传感器节点ni,i=1,...,A持续对环境进行检测并收集数据,并且每间隔TR秒按照路由信息向汇聚节点n0发送收集到的数据; 4、传感器节点ni,i=1,...,A每进行Ω轮传输,汇聚节点n0上的智能体按照步骤1.5的方法决策出新的路由算法,为各个传感器节点ni,i=1,...,A计算到达汇聚节点n0的路由。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。