曲阜师范大学刘智斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉曲阜师范大学申请的专利对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115757724B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211428329.9,技术领域涉及:G06F16/3329;该发明授权对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质是由刘智斌;周振友;李光顺;董兆安;庞入才;雷玉霞设计研发完成,并于2022-11-15向国家知识产权局提交的专利申请。
本对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质在说明书摘要公布了:本发明公开了一种对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质。所述方法包括:采用邻域随机化从专家模拟器中构建用户模型集合,所述用户模型集合中包括至少两个用户模型;将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹;根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量,确定目标用户模型。本发明实施例公开的用户模型评估技术方案能够成功地提高对话模型的性能。
本发明授权对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质在权利要求书中公布了:1.一种对话模型训练用的用户模型确定方法,其特征在于,包括: 采用邻域随机化从专家模拟器中构建用户模型集合,所述用户模型集合中包括至少两个用户模型; 利用具有不同初始参数的多个神经网络模型,分别训练出对应不同对话环境的用户模型,所述初始参数随机生成,所述用户模型的训练目标为: 其中,θ为所述用户模型的参数向量, Mθ是用户模型, Au是用户模型可用的对话行为的个数, 是用户模型的状态, at,i是第i个用户模型的动作, t表示对话回合,T为对话回合的上限值; 将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹; 所述用户模型初始化任务目标,所述任务目标包括:约束和请求; 所述对话模型按照不同的所述用户模型生成的所述任务目标分别与所述用户模型对话,获得所述对话轨迹,所述对话轨迹包括:所述对话模型与所述用户模型完成对话后生成的交互元组,所述交互元组包括:对话模型的状态,对话模型的行为、用户模型的状态、用户模型的行为、对话奖励值; 根据如下公式计算多样化比值: 其中,Τi表示i时刻的交互元组,Τj表示j时刻的交互元组,Du用于存储专家模拟器的交互元组,Ds用于存储多样化用户模型的交互元组; 根据所述多样化比值评估所述用户模型是否满足多样化条件,若满足,则获取所述用户模型对应的对话轨迹,若不满足,则不获取所述用户模型对应的对话轨迹; 根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量,确定目标用户模型; 根据人类对话轨迹预测人类对话中的对话奖励; 根据所述对话奖励对所述用户模型进行近端策略优化学习确定所述目标用户模型; 将人类对话轨迹构建为玻尔兹曼分布模型; 利用梯度下降法并根据所述玻尔兹曼分布模型预测所述对话奖励; 根据预设的累计折扣收益确定所述用户模型中的最优用户模型; 以所述最优用户模型为基准,计算用户模型集合中其他用户模型与所述最优用户模型的距离; 根据所述距离确定参与训练的所述目标用户模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人曲阜师范大学,其通讯地址为:273100 山东省济宁市曲阜市静轩西路57号曲阜师范大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励