Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 云南大学彭高成获国家专利权

云南大学彭高成获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉云南大学申请的专利一种基于多视图个性化逆强化学习的时空行为预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119599230B

龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411643436.2,技术领域涉及:G06Q10/047;该发明授权一种基于多视图个性化逆强化学习的时空行为预测方法是由彭高成;赵苡积;武浩;张骥先;丁海燕设计研发完成,并于2024-11-18向国家知识产权局提交的专利申请。

一种基于多视图个性化逆强化学习的时空行为预测方法在说明书摘要公布了:本发明公开了一种基于多视图个性化逆强化学习的时空行为预测方法,涉及时空预测领域。本发明包括:从原始的配送员时空行为数据中提取空间多视图;将空间多视图输入到个性化对抗逆强化学习网络,包括生成器、判别器和值估计器,生成器包括多视图编码器和解码器,输入经过多视图编码器得到区域和点位表示,解码器输出配送员时空行为;判别器将预测和真实时空行为作为输入进行训练;值估计器计算当前状态的预期回报;生成器、判别器和值估计器交替训练。本发明引入多视图和个性化行为偏好到对抗逆强化学习网络,从历史行为数据中学习奖励函数并预测配送员的时空行为,增强模型的可解释性且提高时空行为预测的准确性。

本发明授权一种基于多视图个性化逆强化学习的时空行为预测方法在权利要求书中公布了:1.一种基于多视图个性化逆强化学习的时空行为预测方法,其特征在于,包括以下步骤: S1、从原始的配送员时空行为数据中提取空间多视图; 所述空间多视图包括:空间区域拓扑图和空间点位拓扑图; S2、将空间多视图输入个性化对抗逆强化学习网络,得到配送员的预测时空行为、配送员的真实时空行为、预测时空行为的奖励值和配送员的时空行为对应状态的预期回报; 所述个性化对抗逆强化学习网络包括:生成器、判别器和值估计器; 所述生成器包括:多视图编码器和解码器; 所述多视图编码器是以传统图注意力网络为基础网络结构,引入掩码注意力机制、多头注意力的正则化和均值处理;并利用平均操作代替拼接操作;最后再使用ReLU激活函数; S3、分别对生成器、判别器和值估计器进行更新,最终得到最优值; 所述分别对生成器、判别器和值估计器进行更新具体如下: 生成器的更新使用近端策略优化算法进行训练,表达式如下: ; 式中,表示新旧策略的概率比;是裁剪参数;是裁剪函数;是优势估计函数,表达式如下: ; 其中,; 式中,是折扣因子,参数,用于平衡偏差和方差,为配送员时空行为在t时刻的预期回报,是值估计器的估计值; 判别器的更新表达式为: ; 式中,表示判别器的输出,在当前时空行为节点的状态s、动作a和配送员的个性化行为偏好,判别器判断数据为真实时空行为数据的概率,表示真实时空行为数据的期望值,表示预测时空行为数据的期望值; 值估计器更新表达式为: ; 式中,表示基于配送员个性化行为偏好u,当前时空行为节点的状态s和动作a的奖励值,并将其作为与的和,,分别代表值估计器的新参数和旧参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人云南大学,其通讯地址为:650031 云南省昆明市五华区翠湖北路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。