复旦大学陈昱妍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利面向医疗对话的时间感知增强回复生成方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117708301B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311856149.5,技术领域涉及:G06F16/3329;该发明授权面向医疗对话的时间感知增强回复生成方法及装置是由陈昱妍;肖仰华;石庭豪;李直旭设计研发完成,并于2023-12-29向国家知识产权局提交的专利申请。
本面向医疗对话的时间感知增强回复生成方法及装置在说明书摘要公布了:本发明提供了一种面向医疗对话的时间感知增强回复生成方法及装置,具有这样的特征,包括步骤S1,根据现有的医疗数据构建时间感知多轮对话数据集;步骤S2,根据时间感知多轮对话数据集对现有的医疗大型语言模型进行训练,得到医疗对话模型;步骤S3,对对话序列进行编码,得到编码状态表示;步骤S4,对历史对话进行编码,得到编码记忆向量;步骤S5,将编码状态表示和编码记忆向量进行结合,得到融合状态表示;步骤S6,根据时间注意力机制对融合状态表示进行增强,得到增强状态表示;步骤S7,将当前提问和增强状态表示输入医疗对话模型,得到医疗对话回复。总之,本方法能够处理与时间相关的医疗对话并生成具有时间感知的回复。
本发明授权面向医疗对话的时间感知增强回复生成方法及装置在权利要求书中公布了:1.一种面向医疗对话的时间感知增强回复生成方法,用于根据包含历史对话和当前提问的对话序列生成对应的医疗对话回复,其特征在于,包括以下步骤: 步骤S1,根据现有的医疗数据构建时间感知多轮对话数据集; 步骤S2,根据所述时间感知多轮对话数据集对现有的医疗大型语言模型进行训练,得到医疗对话模型; 步骤S3,对所述对话序列进行编码,得到编码状态表示s1:t; 步骤S4,对所述历史对话进行编码,得到编码记忆向量mh; 步骤S5,将所述编码状态表示s1:t和所述编码记忆向量mh进行结合,得到融合状态表示 步骤S6,根据时间注意力机制对所述融合状态表示进行增强,得到增强状态表示 步骤S7,将所述当前提问和所述增强状态表示输入所述医疗对话模型,得到所述医疗对话回复, 其中,所述步骤S2包括以下子步骤: 步骤S2-1,根据所述时间感知多轮对话数据集对所述医疗大型语言模型进行有监督微调,得到微调医疗对话模型; 步骤S2-2,根据所述时间感知多轮对话数据集和所述微调医疗对话模型,得到微调对话回复; 步骤S2-3,根据所述微调对话回复构建奖励模型; 步骤S2-4,根据所述奖励模型对所述微调医疗对话模型进行动态时间强化学习,得到所述医疗对话模型, 其中,所述步骤S1包括以下子步骤: 步骤S1-1,对所述医疗数据进行预处理,得到预处理医疗数据; 步骤S1-2,对所述预处理医疗数据按照患者划分为不同记录,并对各个所述记录中的数据按照时间顺序排序,得到对应的排序记录; 步骤S1-3,分别根据各个所述排序记录生成对应的多轮对话记录; 步骤S1-4,对各个所述多轮对话记录,根据大语言模型进行时间戳插入,得到对应的时间感知多轮对话记录; 步骤S1-5,将所有所述时间感知多轮对话记录作为所述时间感知多轮对话数据集, 在所述步骤S2-2中,所述微调对话回复为所述微调医疗对话模型根据输入的所述时间感知多轮对话数据集中所述时间感知多轮对话记录的对话生成的所有回复在经由医学专家细化排序后的回复序列, 在所述步骤S2-3中,所述奖励模型通过所述微调对话回复进行损失计算训练得到,所述损失计算的表达式为: 式中x为所述微调对话回复中的一个回复,D为由所述微调对话回复中两两回复构建得到的所有排名对的集合,yw和yl为所述排名对中的两个回复,且yw为排名较高的回复,yl为排名较低的回复,rθ为所述奖励模型的标量输出,k为所述微调对话回复中回复的总数, 在所述步骤S2-4中,所述动态时间强化学习包括Q值更新、行动选择、时效性衰减和策略优化, 所述Q值更新的表达式为: 式中Qst,a;θ为动作价值函数,用于估计在时间步t下,在状态st时采取动作a并且策略参数为θ时的期望奖励,α为学习率,γ为折扣因子,为在下一个时间步t+1和所有可能动作a′中,预期能够获得的最大Q值,Rt为在时间t时根据所述奖励模型得到的奖励, 所述行动选择的表达式为: 式中at+1为下一时间步t+1时刻的最优行动,为评估在当前状态下采取行动a的相对价值,Argmaxa为在所有可能的行动a中找到使相对价值最大的行动, 所述时效性衰减的表达式为: 式中β为衰减因子,Δt为从现在到初始事件之间的时间差,为在某一特定时间步t,对模型的回复所给出的原始奖励,为考虑到事件发生后经过的时间,对原始奖励进行时间衰减调整后的新奖励, 所述策略优化的表达式为: 式中为先前部署策略的优势函数,clip为剪辑clip函数,∈为剪切参数,πθa|s为在当前策略参数θ下,给定状态s时采取行动a的概率,为在之前的策略参数θold下,相同的给定状态s时采取相同行动a的概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励