渊慧科技有限公司W·C·达布尼获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉渊慧科技有限公司申请的专利用于分布式强化学习的方法、程序产品和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116776964B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310685965.8,技术领域涉及:G06F17/18;该发明授权用于分布式强化学习的方法、程序产品和存储介质是由W·C·达布尼;M·金德罗-贝尔-梅尔设计研发完成,并于2018-04-16向国家知识产权局提交的专利申请。
本用于分布式强化学习的方法、程序产品和存储介质在说明书摘要公布了:方法、系统和设备,包括在计算机存储介质上编码的计算机程序,以选择由与环境交互的强化学习智能体要执行的动作。接收表征环境的当前状态的当前观察。对于可以由与环境交互的智能体执行的多个动作的集合中的每个动作,确定针对动作–当前观察对的可能的Q回报之上的概率分布。对于每个动作,确定相对于针对动作–当前观察对的概率分布的可能的Q回报的集中趋势的度量。使用集中趋势的度量,选择响应于当前观察将由智能体执行的动作。
本发明授权用于分布式强化学习的方法、程序产品和存储介质在权利要求书中公布了:1.一种由一个或多个数据处理装置执行的用于训练分布式Q网络的方法,所述方法包括: 获得经验元组,所述经验元组包含i当前训练观察,ii响应于所述当前训练观察由智能体执行的当前动作,iii响应于所述智能体执行所述当前动作而接收的当前奖励,以及iv下一个训练观察,所述下一个训练观察表征由于所述智能体执行所述当前动作而使环境所转换成的状态; 使用所述分布式Q网络并根据网络参数的当前值处理所述当前训练观察和所述当前动作,以生成当前网络输出,所述当前网络输出包括多个数值,所述多个数值共同限定针对当前动作-当前训练观察对的可能的Q回报之上的当前概率分布; 使用目标分布式Q网络并根据所述分布式Q网络的目标网络参数的当前值处理可能的下一个动作和下一个训练观察,以生成针对动作-下一个训练观察对的下一个网络输出,所述下一个网络输出包括多个数值,所述多个数值共同限定针对可能的下一个动作-下一个训练观察对的可能的Q回报之上的下一个概率分布,其中所述目标分布式Q网络具有与所述分布式Q网络相同的神经网络架构,但是所述目标网络参数的当前值不同于所述网络参数的当前值; 取决于:i当前动作-当前训练观察对的可能的Q回报之上的当前概率分布,ii可能的下一个动作-下一个训练观察对的可能的Q回报之上的下一个概率分布,以及iii所述当前奖励,相对于损失函数的所述网络参数确定梯度,包括: 使用所述当前奖励和所述可能的下一个动作,确定所述可能的Q回报中的每一个可能的Q回报的相应投影样本更新;以及 其中所述损失函数取决于所述可能的Q回报的投影样本更新;以及 使用所述梯度更新所述网络参数的当前值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人渊慧科技有限公司,其通讯地址为:英国伦敦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励