Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学陈爱国获国家专利权

电子科技大学陈爱国获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种基于多先验策略的强化学习智能决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117151205B

龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311069248.9,技术领域涉及:G06N3/092;该发明授权一种基于多先验策略的强化学习智能决策方法是由陈爱国;付波;王勇;罗光春;张思洁;周鑫岑设计研发完成,并于2023-08-24向国家知识产权局提交的专利申请。

一种基于多先验策略的强化学习智能决策方法在说明书摘要公布了:本发明涉及机器学习和强化学习技术领域,公开了一种基于多先验策略的强化学习智能决策方法,解决现有技术中利用强化学习进行智能决策时由于奖励稀疏、样本利用率低、环境过拟合导致的决策困难问题。该方法利用目标策略网络和先验策略指导智能体进行决策,将决策产生的交互数据放入重放缓冲区;随后从重放缓冲区中进行数据采样,获取一个训练集用于目标策略网络训练;然后根据训练数据计算综合损失函数,利用梯度下降法对目标策略网络进行更新;最后更新重放缓冲区种所用训练数据的被采样概率;在智能决策过程,将智能体观测的环境状态输入至目标策略网络中,根据网络输出执行动作并完成状态转移,随后重复上述观察‑决策过程,直至决策任务完成。

本发明授权一种基于多先验策略的强化学习智能决策方法在权利要求书中公布了:1.一种基于多先验策略的强化学习智能决策方法,其特征在于,包括训练过程和智能决策过程,训练过程具体包括以下步骤: S1、初始化目标策略网络;目标策略网络主要由behaviour网络和target网络两部分构成,两个网络结构完全相同,均由3个卷积层和2个全连接层组成,均通过随机设置的网络参数完成网络初始化;其中,网络输入为当前智能体所观测的状态信息,网络输出为可执行的所有动作所构成的状态-动作价值向量,即Q向量; S2、导入已有的N个先验策略模型,先验策略模型的网络结构与目标策略网络相同,并为每一个先验策略都分别初始化一个重放缓冲区; S3、选择先验策略其中,πT指代先验策略,t代表所选择的先验策略编号,取值为1到N;在先验策略和目标策略的共同作用下,指导智能体与环境交互,分为以下几个步骤: S31、根据智能体当前观测的图像信息和全局导航视图,对图像数据进行预处理,主要包括图像裁剪、下采样、擦除背景、转为灰度图,将预处理后的图像信息的RGB像素矩阵作为当前状态s; S32、定义动作选择策略πa|s并选择决策的实质指导策略,策略指的是由智能体的观测状态s到动作a的逻辑映射;πa|s定义如下: 其中,πTa∣s表示根据先验策略进行动作选择,πSa∣s表示根据目标策略网络进行动作选择,β是一个随训练过程逐渐变化的参数,在训练初期被设置为较大的值,并在此后逐步减小,代表着智能体的动作选择权由先验策略逐步过渡到目标策略; S33、若根据先验策略进行决策,则利用πTa∣s来指导动作选择;πTa∣s定义如下: 其中,表示所选择的第t个先验策略的价值函数网络,A表示当前状态下智能体可执行的动作空间,πTa∣s的定义表示智能体将选择在第t个先验策略网络中输出最大的动作; S34、若根据目标策略进行决策,则利用πSa∣s来指导动作选择;πSa∣s定义如下: 其中,∈是一个逐渐变小的参数,代表动作选择的随机性逐渐降低,QS表示目标策略价值函数网络,|A|表示动作空间大小; S35、智能体在当前状态s下,执行根据πa∣s所选择的动作a,获取奖励r,并观察到下一状态s′; S4、设置交互数据s,a,r,s′的被采样概率为当前最大值,将其放入当前先验策略对应的重放缓冲区; S5、当重放缓冲区存储一定的交互数据后,根据数据的被采样概率P,从重放缓冲区中进行数据采样,构成训练集minibatch{s,a,r,s′}; S6、利用训练集minibatch{s,a,r,s′}中的交互数据进行模型训练,计算损失,分为以下几个步骤: S61、计算强化学习损失,主要分为以下几个步骤: S611、将训练数据中的状态si作为输入,根据目标策略网络中的behaviour网络,获取所执行动作a的预测Q值: 其中,表示目标策略网络中的behaviour网络参数;Q表示预测得到的状态-动作价值; S612、将训练数据中的下一状态si+1作为输入,根据目标策略网络中的target网络和所获得的环境奖励ri,并结合先验策略网络,计算监督项Yi: 其中,表示目标策略网络中的target网络参数;γ表示奖励折扣系数,表示智能体对当前奖励和长期奖励的偏好;a*由先验策略和目标策略共同决定,其选择方式定义如下: 即选取加权求和后带来预期收益最大的动作来估计监督项Yi,其中表示目标策略网络中的behaviour网络参数,表示由目标策略网络预测得到的状态-动作价值,表示先验策略网络中的target网络参数,表示由先验策略网络预测得到的状态-动作价值,α表示先验策略相较于目标策略的重要性系数; S613、根据预测Q值和监督项Yi,计算强化学习损失 S62、计算策略蒸馏损失,主要分为以下几个步骤: S621、将训练数据中的状态si作为输入,根据目标策略网络中的behaviour网络,获取所有可执行动作构成的Q值向量 S622、将训练数据中的状态si作为输入,根据先验策略网络中的behaviour网络,获取所有可执行动作构成的Q值向量 S623、根据和利用KL散度计算策略蒸馏损失 其中,τ表示策略蒸馏的温度系数;softmax指的是归一化指数函数; S63、根据强化学习损失和策略蒸馏损失计算总损失 其中,先验策略的重要性系数ω用来平衡两部分损失函数的重要性;|A|表示智能体可执行动作的动作空间大小; S7、针对总损失利用梯度下降法对目标策略网络的网络参数θS进行参数更新,使损失函数延梯度下降方向逐步减小直至收敛; S8、更新所用训练数据的被采样概率,分为以下几个步骤: S81、计算训练数据的TD-Error,其中TD-Error定义如下: S82、根据第i个数据样本的TD-Error值δi,计算其对应的被采样概率Pi,Pi的定义如下: with:pi=δi+z 其中,z为一个小正数,用来保证某些TD-Error为0的样本也有机会被采样到;μ是一个超参数,用来适当调整TD-Error的优先级而不改变优先级的单调性;j与i对应,为数据样本编号,i为特指,j为泛指,其取值为1到M,M为训练集中s,a,r,s′的数据量,此步骤是为了把所有样本的权重进行求和; S83、将训练数据si,ai,ri,si+1的被采样概率更新为Pi; S9、minibatch中的训练数据被使用完毕后,回到步骤S3,开始利用下一个先验策略指导智能体决策和训练,实现网络参数θS的更新; 智能决策过程包括以下步骤: SS1、智能体观察当前所处的环境,获取对应图像信息; SS2、根据当前观测的图像信息和全局导航视图,对图像数据进行预处理;预处理过程主要包括图像裁剪、下采样、擦除背景、转为灰度图,将预处理后的RGB图像视为当前状态s; SS3、将状态s输入训练好的策略模型中,得到可执行的所有动作所对应的Q值; SS4、选择并执行Q值最大的动作,智能体进行移动并观察到新的图像信息; SS5、重复SS1至SS4步骤,直至导航任务完成,智能决策结束。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。