金锐同创(北京)科技股份有限公司夏莹获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉金锐同创(北京)科技股份有限公司申请的专利一种基于强化学习的仓位分配策略优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121257873B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511822044.7,技术领域涉及:G06Q10/04;该发明授权一种基于强化学习的仓位分配策略优化方法及系统是由夏莹;和晓峰;张睿豪设计研发完成,并于2025-12-05向国家知识产权局提交的专利申请。
本一种基于强化学习的仓位分配策略优化方法及系统在说明书摘要公布了:本发明涉及仓储管理与智能物流技术领域,公开了一种基于强化学习的仓位分配策略优化方法及系统,其中,方法包括:构建仓储状态向量;生成商品单元SKU的仓位分配动作集合,并采用双层策略梯度约束机制筛选并迁移动作;基于三维引擎仿真环境采集即时运行指标并输出即时奖励信号;构建经验四元组并利用深度Q网络进行策略迭代训练;执行闭环反馈优化。相较于现有技术中依赖静态规则或启发式算法进行SKU仓位分配,尤其是在多品类大型仓库场景中,高SKU相关度与频繁组合拣选条件下,难以实现整体拣选效率优化的技术问题,由于本申请通过强化学习驱动的关联聚类机制,实现了动态自适应的类簇式仓位布局优化,提高了仓储系统的作业效率。
本发明授权一种基于强化学习的仓位分配策略优化方法及系统在权利要求书中公布了:1.一种基于强化学习的仓位分配策略优化方法,其特征在于,方法包括: 步骤S10:从预设的仓储管理系统中获取商品库存集合、仓位集合和订单集合;从商品库存集合中获取每个商品单元SKU的拣选频次和体积参数,并采用加权图卷积与自注意力融合机制生成商品关联度矩阵;基于商品关联度矩阵、拣选频次和体积参数通过向量化编码方式构建时刻t的仓储状态向量; 步骤S20:基于仓储状态向量构建动作集合,动作集合用于描述商品单元SKU与仓位分配或交换的动作关系;根据动作集合采用基于双层策略梯度约束的动作筛选与迁移机制对仓储状态向量执行迭代更新,输出优化仓储状态向量和初步仓储布局; 其中,基于仓储状态向量构建动作集合,动作集合用于描述商品单元SKU与仓位分配或交换的动作关系;根据动作集合采用基于双层策略梯度约束的动作筛选与迁移机制对仓储状态向量执行迭代更新,输出优化仓储状态向量和初步仓储布局的步骤,具体包括: 读取仓储状态向量中每个商品单元SKU的拣选频次特征向量、体积参数特征向量和商品关联度特征向量,并采用差异张量计算法计算不同商品单元SKU之间的拣选频次差异向量值、体积参数差异向量值和商品关联度差异向量值;基于拣选频次差异向量值、体积参数差异向量值和商品关联度差异向量值对动作集合中的每一项时刻t的动作进行执行概率值的加权计算处理,并生成一组候选动作; 第一层策略过滤:将生成的一组候选动作输入至预设的动作策略网络,动作策略网络输出执行概率值从高到低排序的前K个动作,形成动作子集; 第二层梯度约束筛选与迁移执行:通过策略梯度估计计算动作子集中的每个动作的长期贡献趋势,若长期贡献趋势低于预设的贡献阈值,则丢弃该动作,输出优化动作子集;在优化动作子集中,选择执行概率值最大的动作记为执行动作,将执行动作应用于预设的仓位映射函数p,生成初步仓储布局,同时更新仓储状态向量,得到优化仓储状态向量; 步骤S30:基于优化仓储状态向量、初步仓储布局、仓位集合和订单集合在三维引擎仿真环境中执行仿真驱动的奖励评估机制,输出即时奖励信号; 步骤S40:根据即时奖励信号、动作集合、优化仓储状态向量和仓储状态向量构建经验四元组,根据经验四元组利用深度Q网络执行策略训练与迭代更新,输出针对仓储状态向量的最终更新动作; 步骤S50:执行最终更新动作后,采用多源运行数据回溯机制执行闭环反馈优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人金锐同创(北京)科技股份有限公司,其通讯地址为:100195 北京市海淀区闵庄路3号玉泉慧谷8号楼二层01;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励