Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中电信数智科技有限公司盛捷来获国家专利权

中电信数智科技有限公司盛捷来获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中电信数智科技有限公司申请的专利一种基于强化学习的落料控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117184939B

龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311174598.1,技术领域涉及:B65G67/02;该发明授权一种基于强化学习的落料控制方法是由盛捷来设计研发完成,并于2023-09-12向国家知识产权局提交的专利申请。

一种基于强化学习的落料控制方法在说明书摘要公布了:本发明提出了一种基于强化学习的落料控制方法,包括:利用摄像头采集现场图像;其中,现场图像包括:车辆和落料口的正面图像、侧面图像和俯视图像;利用预设的实例分割模型,根据现场图像和现场设备信息,提取出现场参数;将现场参数作为当前状态参数进行分析,控制车辆位置和落料口大小,包括:设置训练阶段和使用阶段;在训练阶段根据不同的当前状态参数调整车辆位置和落料口大小,通过反馈奖励和惩罚重复训练阶段的内容直至车辆能够在最短的时间内满载;在使用阶段根据训练阶段训练好的策略控制车辆位置和落料口大小。本发明实现全流程智能化操控,每个阶段均不需要人为进行干预和操作。

本发明授权一种基于强化学习的落料控制方法在权利要求书中公布了:1.一种基于强化学习的落料控制方法,其特征在于,包括如下步骤: 步骤S1,利用摄像头采集现场图像;其中,所述现场图像包括:车辆和落料口的正面图像、侧面图像和俯视图像; 步骤S2,利用预设的实例分割模型,根据所述现场图像和现场设备信息,提取出现场参数;其中,所述现场参数包括:车辆位置、落料口位置、落料口速度和车厢内现有落料体积; 提取车辆位置信息和落料口位置信息,包括如下步骤:采用实例分割模型对图像中车辆的车辆车厢位置和落料口位置进行准确识别,形成车辆和落料口的坐标信息Loc; 提取车厢内现有落料体积,包括如下步骤: 对箱体内部当前已经占用体积进行估算,将车厢分成前后左右四个部分,分别根据图像信息进行体积估算,得到体积信息Val=ValF,ValB,ValL,ValR,其中,ValF为前部体积估算值、ValB为后部体积估算值、ValL为左部体积估算值、ValR为右部体积估算值; 步骤S3,将所述现场参数作为当前状态参数进行分析,控制车辆位置和落料口大小,包括: 步骤S31,设置训练阶段和使用阶段; 步骤S32,在所述训练阶段根据不同的当前状态参数调整车辆位置和落料口大小,通过反馈奖励和惩罚重复训练阶段的内容直至车辆能够在最短的时间内满载; 在训练阶段,如果货箱溢出则惩罚最大,如果此时货箱未满,则正常奖励,奖励设置为随着时间增大而减少,以保证边际收益随着时间增加而减少;在训练阶段,为保证训练目标耗时最小,将各个时刻的奖励之和除以总耗时,所得数值作为反比系数,基于反比系数将训练目标设置为如何使得最终的奖励最大化; 其中,训练阶段的步骤如下: 获得图像中的位置信息以及落料口的大小,当前体积作为强化学习的当前t时刻状态 St=Valt,Loct; 其中,St为当前t时刻状态;Valt为当前t时刻的体积参数,Loct为当前t时刻的位置 信息; 给出操作动作At=ΔLoc,ΔV,ΔLoc为车辆移动的位置改变坐标,ΔV为落料口的调整速度; 此时时刻t+1,当前状态已经改变为St+1=Valt+1,Loct+1,获得反馈奖励Rt+1,设定反馈奖励条件如果货箱溢出则惩罚最大,如果此时货箱未满,则正常奖励,奖励设置为随着时间增大而减少,以保证边际收益随着时间增加而减少;其中,St+1为t+1时刻状态;Valt+1为t+1时刻的体积参数,Loct+1为t+1时刻的位置信息; 反复重复上述过程,直到车辆满载,记此时刻为T,此时计算总体的反馈奖励G=R0+R1+...+RTT; 其中,R0为第0时刻的操作获得的奖惩;R1为第1时刻的操作获得的奖惩;RT为第T时刻的操作获得的奖惩;G是总体的反馈奖励,即总共获得的奖励,G和时间T成反比,时间越长消耗的奖励越低; 为保证目标是耗时最小,将各个时刻的奖励加和后除以总耗时T,作为反比系数,训练将目标设置为使得最终的奖励G如何最大化; 步骤S33,在所述使用阶段根据训练阶段训练好的策略控制车辆位置和落料口大小;其中,所述训练好的策略为采用步骤S32中的奖励和惩罚机制获得的模型,这个模型的输入为现场图像和当前状态参数,按照预设时间间隔,调整车辆位置和落料口的大小。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中电信数智科技有限公司,其通讯地址为:100036 北京市海淀区复兴路33号13层东塔13层1308室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。