上海浙江大学高等研究院;上海人工智能创新中心况琨获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海浙江大学高等研究院;上海人工智能创新中心申请的专利基于潜在群组工具变量的多方混合数据溯源方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115188484B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210836782.7,技术领域涉及:G16H50/70;该发明授权基于潜在群组工具变量的多方混合数据溯源方法及系统是由况琨;吴安鹏;吴飞设计研发完成,并于2022-07-15向国家知识产权局提交的专利申请。
本基于潜在群组工具变量的多方混合数据溯源方法及系统在说明书摘要公布了:本发明公开了一种基于潜在群组工具变量的多方混合数据溯源方法及系统。该方法通过表征学习,将病况信息映射到一个表征空间;再通过期望最大化算法,基于给定的类簇数量,利用期望最大化算法识别异质治疗方案分配机制,即干预变量和混淆变量在不同数据来源上有不同的因果关系;最后基于异质治疗方案分配机制,将病历数据划分为多个不同的样本子群,并且基于相关性指标为数据选择最佳群组工具变量作为多方数据的不同来源指示变量,以此溯源得到不同医疗机构诊疗手段的差异,实现病历样本的分组。本发明可进一步基于来源指示变量,将潜在群组工具变量嵌入工具变量回归方法结合多方知识进行联合学习,为每一位病人提供辅助的精准治疗方案推荐。
本发明授权基于潜在群组工具变量的多方混合数据溯源方法及系统在权利要求书中公布了:1.一种基于潜在群组工具变量的多方混合数据溯源方法,其特征在于,包括如下步骤: S1、获取用于进行溯源识别的来源于多方医疗机构的病历数据集,其中每一份病历数据均包含病况信息、由医疗机构给出的治疗方案以及按照该治疗方案进行治疗后的治疗结果,所述病况信息包括病人体征和口述信息; S2、在类簇超参数取值范围内选择一个类簇数量待选值,以由医疗机构给出的治疗方案作为干预变量,以对应的病况信息作为混淆变量,通过表征学习将病历数据集中观察到的病况信息映射到一个表征空间; S3、固定S2中得到的表征空间中的期望和协方差矩阵,利用期望最大化算法识别该类簇数量待选值对应的异质治疗方案分配机制,所述异质治疗方案分配机制代表不同数据来源的干预变量和混淆变量之间存在的不同因果关系,每一种异质治疗方案分配机制对应于一种诊疗手段; S4、遍历类簇超参数取值范围内的所有类簇数量待选值,分别对每一个类簇数量待选值执行S2和S3,得到每一个类簇数量待选值对应的异质治疗方案分配机制;针对每一个类簇数量待选值,将所述病历数据集中的样本划分为与该类簇数量待选值相同数量的样本子群,然后基于相关性独立指标从所有类簇数量待选值中选择一个最佳类簇数量以及在该最佳类簇数量下各样本对应的潜在群组工具变量,以潜在群组工具变量作为多方混合病历数据中的不同来源指示变量,将多方混合病历数据中的所有病历数据进行聚类划分形成多个分组,每个分组中的病历数据之间具有相同的诊疗手段即属于同一种异质治疗方案分配机制,从而溯源得到病历数据集中不同医疗机构诊疗手段的差异; 所述的S2具体包括以下子步骤: S201、针对类簇超参数取值范围内的每一个类簇数量待选值K,通过表征学习算法将所有观察到的病人体征和口述信息作为混淆变量,通过映射函数投映到各维度独立的表征空间上,并将非独立数据和多变量复杂交互项共同学习为一个噪声项: 其中X是病历数据中作为混淆变量的病况信息,T是病历数据中作为干预变量的治疗方案,∈TZ代表未观察到的病人体征和口述信息或者由测量误差引起的误差项;表示由潜在的K个潜在群组工具变量Z∈{1,...,K}所对应的异质治疗方案分配机制其输入为混淆变量X,K为当前选择的类簇数量待选值;z是潜在群组工具变量Z的实例化;R是最终学习得到的表征空间,Rj代表数据表征空间R的第j个分量,j∈{1,...,mR},mR为总的表征维度,αzj是对应表征的线性拟合系数,βz是非独立数据和多变量复杂交互项共同学习到的噪声项,1[Z=z]是条件函数,即样本数据X和T之间对应的真实治疗方案分配机制Z=z时为1否则为0; S202、基于S201中最终学习得到的表征空间R,计算表征空间的期望和协方差: 其中ri是第i个样本的表征向量,σR,R为协方差矩阵,n为所述病历数据集的总样本数量; S203、定义完全数据的似然函数和对数似然函数的计算公式如下: 其中:t是干预变量T的实例化,r是表征空间R的实例化,ti,ri,zi分别为第i个样本对应的t、r和z,是给定分布参数θ下t,r,z的联合概率分布,πk是ti,ri来源于群组zi=k的概率,是在给定分布参数{μk,Σk}下ti,ri的联合概率分布,μk,Σk分别为均值和方差,是条件函数,即zi=k时为1否则为0,k∈{1,...,K}; 所述的S3具体包括以下子步骤: S301、用随机数初始化异质数据分布其中K为所述S2中选定的类簇数量待选值; S302、使用S202获得的表征空间信息将异质数据分布θ重新初始化为θ0={π0,μ0,Σ0}: 其中,分别是随机初始化的T的均值、T的方差以及T和R的协方差矩阵,的转置; S303、开始执行第s次迭代中的期望步骤,即根据给定观察数据{T,R}以及当前的异质数据分布估计θs,计算完全数据的对数似然函数期望为: 其中,期望是第i个样本在第k个群组上关于θs的条件概率分布: 其中,是样本t,r来源于群组z=i的概率,且K个群组的条件概率之和为1,是在给定分布参数下T和R的联合概率分布; S304、继续执行第s次迭代中的最大化步骤,即根据给定观察数据{T,R}以及当前的异质数据分布估计θs,最大化完全数据的对数似然函数期望Qθ,θs并更新异质数据分布估计为θs+1: θs+1=argmaxθQθ,θs 其中θs+1中的参数求解得: 其中表示在特征维度方向上拼接T和R,是一个矩阵,M2=MMT; S305、在期望最大化算法中,不断迭代执行期望步骤S304和最大化步骤S305,最终得到一个当前K值对应的分布收敛解由θ*表征不同数据来源的干预变量和混淆变量之间存在的不同因果关系及其对应分布。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海浙江大学高等研究院;上海人工智能创新中心,其通讯地址为:201203 上海市浦东新区丹桂路799号国创中心三期5号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励