Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)周逊获国家专利权

哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)周逊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利一种基于深度强化学习的中心化共享运营汽车调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121212740B

龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511757816.3,技术领域涉及:G06Q10/0631;该发明授权一种基于深度强化学习的中心化共享运营汽车调度方法是由周逊;张晨旭;邵奕天设计研发完成,并于2025-11-27向国家知识产权局提交的专利申请。

一种基于深度强化学习的中心化共享运营汽车调度方法在说明书摘要公布了:本发明公开一种基于深度强化学习的中心化共享运营汽车调度方法,涉及人工智能技术领域。所述方法包括:针对城市车辆调度问题建模马尔可夫决策过程,定义状态空间、邻接感知动作空间、状态转移和奖励;构建基于时空注意力机制的策略网络,捕获时空依赖关系;对策略网络进行训练,用于车辆调度决策。本发明提出一种具有邻接感知协调机制的中心化训练框架,基于全局供需动态和局部交互自适应调整全局动作,使用时空注意力机制捕获时空依赖关系,从而高效地处理大规模车辆调度问题。并且,通过计算邻接车辆调度比例,缓解司机的内部竞争,有效减少冗余调度的行为,对于现实情况中的司机和乘客随时空变化的问题具有较好的鲁棒性。

本发明授权一种基于深度强化学习的中心化共享运营汽车调度方法在权利要求书中公布了:1.一种基于深度强化学习的中心化共享运营汽车调度方法,其特征在于,包括以下步骤: 针对城市车辆调度问题建模马尔可夫决策过程,定义状态空间、邻接感知动作空间、状态转移和奖励; 状态空间:城市区域划分为n×n的均匀网格,每个网格对应一个具体的地理位置;时间离散化为多个时间步,在每个时间步t,全局状态由两个通道组成,表示为,其中分别表示每个网格中可用司机数量和订单数量,以全局状态作为策略网络的输入; 邻接感知动作空间:定义邻接网格,对于每一对邻接网格,动作表示为网格之间的车辆调度比例; 所述邻接感知动作空间中,若两个网格处于同一邻域,即中心单元及八个相邻单元,则定义为邻接网格;对于每一对邻接网格i,j→i',j',动作表示网格i,j和网格i',j'之间的车辆调度比例,正值的动作表示前向调度,负值的动作表示反向调度; 在时间步t时刻全局的动作at定义为: ; 对于每一对邻接网格,实际调度的车辆比例计算方法为: ; 其中代表网格i,j的所有邻接网格,为指示函数,确保只有正向或非负的动作被当前网格考虑,m表示所有邻接网格中的一个; 状态转移:接收到重定位指令后,每个网格中的司机根据网格的动作输出确定重定位流向邻接网格的比例; 奖励:引入司机与订单分布之间的距离,利用订单匹配数量作为奖励,促进司机与订单分布对齐; 构建基于时空注意力机制的策略网络,时间注意力层用于建模连续时间步之间的依赖关系,空间注意力层用于建模每个时间步网格之间的依赖关系; 所述策略网络为基于Transformer的策略网络,包括:卷积嵌入模块、时空注意力模块和输出模块; 输入端采用状态堆叠表示法,即在每个决策步中,输入xt包含最新的k个连续时间步的堆叠状态: ; 所述卷积嵌入模块在通道维度上应用连续的1×1的卷积层,将每个时间步的输入从2通道嵌入到d维特征空间中,卷积嵌入模块的输出表示为: ; 其中L表示卷积层的数量; 所述时空注意力模块中,首先对嵌入张量进行置换和重塑操作,得到;随后,时间注意力层建模k个连续时间步堆叠帧之间的依赖关系,空间注意力层建模每个时间步内网格之间的依赖关系;为了编码二维坐标信息,在空间注意力层中添加旋转位置编码,将每个网格的水平和垂直坐标整合到查询向量和键向量中; 所述输出模块中,在时空注意力模块的输出上使用全局池化操作,以提取全局特征;然后通过带有LeakyReLU激活函数的多层感知机生成参数化的高斯分布;最终的动作通过以下方式采样得出: ; 其中代表逐元素乘积,μ、为高斯分布的均值和方差,随机变量服从均值为0、协方差矩阵为单位矩阵I的多元正态分布;为了保证动作值在-1到1区间内,采样结果通过Tanh函数激活; 对策略网络进行训练,将训练后的策略网络用于车辆调度决策。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。