Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民解放军国防科技大学冯大为获国家专利权

中国人民解放军国防科技大学冯大为获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民解放军国防科技大学申请的专利一种同策略多目标强化学习框架的设计方法、装置及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119578238B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411657260.6,技术领域涉及:G06F30/27;该发明授权一种同策略多目标强化学习框架的设计方法、装置及设备是由冯大为;巩旭东;翟远钊;张迅晖;许可乐;丁博;王怀民设计研发完成,并于2024-11-19向国家知识产权局提交的专利申请。

一种同策略多目标强化学习框架的设计方法、装置及设备在说明书摘要公布了:本发明涉及一种同策略多目标强化学习框架的设计方法、装置及设备。所述方法包括:构建同策略多目标优化模型。同策略多目标优化模型包括:预训练模型与在线强化模型。预训练模型基于专家示范数据对当前行动策略进行优化训练,得到待强化策略。在策略优化模型上,通过评估待强化策略的目标完成能力,根据目标完成能力获取目标采样概率分布,根据目标采样概率分布采样行为目标,根据采样得到的行为目标收集训练数据,在收集到的训练数据上采用KL正则化的强化学习算法对待强化策略进行在线优化,输出最优目标策略。采用本方法能够提高固定翼飞机的速度矢量控制的策略的推理效率和精度。

本发明授权一种同策略多目标强化学习框架的设计方法、装置及设备在权利要求书中公布了:1.一种同策略多目标强化学习框架的设计方法,其特征在于,所述方法包括: 构建同策略多目标优化模型;所述同策略多目标优化模型包括:预训练模型与策略优化模型; 所述预训练模型基于专家示范数据对当前行动策略进行优化训练,得到待强化策略,具体步骤为:所述预训练模型基于专家示范数据采用行为克隆方法优化模型的参数,得到预训练模型参数的优化目标: ; 其中,为预训练模型参数的优化目标,为固定翼飞机的当前时刻动作,为固定翼飞机的当前时刻状态;为由状态-动作s,a组成的专家示范数据集,为从专家示范数据集中采样的状态-动作对,为状态-动作对的期望,为预训练模型参数构成的待强化策略; 根据所述优化目标对当前行动策略进行优化训练,得到待强化策略; 在所述策略优化模型上,评估所述待强化策略的目标完成能力,具体步骤为:在所述策略优化模型上,周期性的评估正在训练的所述待强化策略,以获取评估数据,将所述评估数据记录到预设的策略评估集合中,根据所述策略评估集合中的评估数据采用高斯混合模型估计所述待强化策略的目标完成能力;所述策略评估集合包括:在评估中所述待强化策略能够完成的目标样本与所述目标样本对应的权重; 根据所述目标完成能力获取目标采样概率分布,根据所述目标采样概率分布采样行为目标,根据采样得到的所述行为目标收集训练数据,在收集到的训练数据上采用KL正则化的强化学习算法对所述待强化策略进行在线优化,输出最优目标策略; 所述目标为固定翼无人机达到的目标速度矢量; 所述行为目标为收集数据时使用的目标。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。