Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学王毅刚获国家专利权

杭州电子科技大学王毅刚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种基于显式积分提升代理人行动合理性的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115936141B

龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211428814.6,技术领域涉及:G06N20/00;该发明授权一种基于显式积分提升代理人行动合理性的方法是由王毅刚;刘常运设计研发完成,并于2022-11-15向国家知识产权局提交的专利申请。

一种基于显式积分提升代理人行动合理性的方法在说明书摘要公布了:本发明公开了一种基于显式积分提升代理人行动合理性的方法。本发明包括:1、创建环境状态文件,并提供环境状态数据全局可访问的接口。为每个代理人单独创建环境感知状态数据文件同时提供数据访问接口。2、对真实环境状态属性的分级,为每个真实环境状态属性单独添加多个阈值。不同状态属性等级组合对应不同的真实环境状态。3、创建一张Q表,用于存储状态‑行动价值。4、设置初始真实环境状态和奖励,开始强化学习,得到学习后的Q表。5、代理人依据当前环境感知状态来检索Q表中对应的行动,该行动会造成真实环境状态发生变化,继而引起代理人的环境感知状态的变化。本发明简单高效,解决了代理人对环境反应“太灵敏”的问题。

本发明授权一种基于显式积分提升代理人行动合理性的方法在权利要求书中公布了:1.一种基于显式积分提升代理人行动合理性的方法,其特征在于包括如下步骤: 步骤1:创建环境状态文件,并提供环境状态数据全局可访问的接口;为每个代理人分别单独创建环境感知状态数据文件,同时提供数据访问接口; 步骤1具体实现如下: 1-1.创建一个ScriptableObject类文件,名称为EnvironmentState_SO;并添加环境状态属性变量; 1-2.根据ScriptableObject类文件创建ScriptableObject文件,名称为EnvironmentState_Data; 1-3.创建EnvironmentState_Data的数据访问接口类,名称为EnvironmentState_Dao;并将EnvironmentState_Data作为数据访问接口类的属性; 1-4.为每个不同的代理人创建环境感知状态; 步骤2:对真实环境状态属性的分级,为每个真实环境状态属性单独添加若干个阈值;不同状态属性等级组合对应不同的真实环境状态; 步骤2具体实现如下: 2-1.在EnvironmentState_SO中为每个属性值添加一个阈值列表; 2-2.分别为2-1步骤中的阈值列表设置阈值,所有环境属性值与阈值都存放在数据文件EnvironmentState_Data中; 2-3.在EnvironmentState_Dao提供用于计算当前所处的真实环境状态的接口方法; 步骤3:创建一张Q表,用于存储状态-行动价值; 步骤4:设置初始真实环境状态和奖励,开始强化学习,得到学习后的Q表; 步骤5:代理人依据当前环境感知状态来检索Q表中对应的行动,该行动会造成真实环境状态发生变化;继而引起代理人的环境感知状态的变化,即利用显式积分不断将代理人环境感知状态“逼近”真实环境状态; 步骤5具体实现如下: 5-1.初始时将代理人的环境感知状态设置为真实环境状态; 5-2.根据环境感知状态从Q表中选择一个行动加入到行动队列; 5-3.如果代理人当前环境感知状态在Q表中未检索到,就将邻近度最近的真实环境状态作为当前状态来执行; 5-4.从行动队列中选择价值最大的行动进入执行单元,如果执行单元中的行动没有执行完毕就被更高优先级的行动抢占了执行单元,那么就将该行动重新加入到行动队列中; 5-5.执行中的行动会改变真实环境状态,而代理人是根据环境感知状态来决策的,所以真实环境状态与环境感知状态之间的误差与拉力是成正比的;令拉力f拉=η*tanhe-e',其中e表示真实环境状态,e'表示环境感知状态,η表示参数;阻力大小f阻=minf拉,μmg,其中μ表示阻力系数,m表示质量,g表示重力加速度;阻力方向与运动方向相反;合力F=f拉-f阻; 5-6.根据显式积分公式,不断更新环境感知状态: 其中,xt+1表示下一时刻的状态属性值,xt表示当前状态属性值,Δt表示时间的变化量,vt+1表示下一时刻的状态属性值的变化速度,vt表示当前的状态属性值的变化速度,Ft表示当前时刻受到的力,m表示质量; 5-7.回到步骤5-2,直到游戏结束。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。