电子科技大学何涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于校准扩散模型的开放词汇人机互动检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120949945B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511471311.0,技术领域涉及:G06F3/01;该发明授权一种基于校准扩散模型的开放词汇人机互动检测方法是由何涛;吴昊;范宇;胡辛;段贵多;罗光春设计研发完成,并于2025-10-15向国家知识产权局提交的专利申请。
本一种基于校准扩散模型的开放词汇人机互动检测方法在说明书摘要公布了:一种基于校准扩散模型的开放词汇人机互动检测方法,涉及计算机视觉与人工智能技术领域。该方法采用一个两阶段的师生学习框架:教师模型通过对一个生成式扩散模型注入人机交互先验知识进行校准,以生成针对人‑物交互区域的、低噪声且细粒度的视觉特征;学生模型是一个端到端的检测框架,在混合损失的监督下进行整体优化,避免了多阶段独立训练带来的次优化问题,使得检测流程更高效、性能更优。通过引入人‑物对学习器和局部感知解码器,并结合教师模型的知识蒸馏,本方法能更深刻地理解互动的本质语义和空间关系,对新颖、未见的互动场景具有更强的泛化能力。本方法能够有效抑制预训练模型的内在噪声,并使特征与HOI任务高度对齐。
本发明授权一种基于校准扩散模型的开放词汇人机互动检测方法在权利要求书中公布了:1.一种基于校准扩散模型的开放词汇人机互动检测方法,其特征在于,包括以下步骤: 第一阶段:教师模型的校准与训练; 步骤1:获取带有“人-物-交互”标注的图像数据集,对每个交互对裁剪出最小外接矩形作为图像样本,并生成对应的“人-动作-物”格式的文本描述; 步骤2:将图像样本的视觉特征与对应文本描述的语义特征进行深度对齐,得到包含各类交互模式的知识库;所述步骤2采用视觉和文本双分支结构进行特征校准,具体如下: 步骤2.1:搭建视觉编码分支,校准视觉特征的提取;视觉编码分支包括冻结的对比语言-图像预训练CLIP图像编码器、可学习的适配器、预训练的扩散模型U-Net网络、特征融合编码器; 首先将图像区域输入至冻结的CLIP图像编码器和可学习的适配器,将其映射为隐式文本嵌入; 将图像区域和隐式文本嵌入共同输入至扩散模型U-Net网络,通过U-Net网络内部的交叉注意力机制,融合图像特征与文本嵌入,生成与HOI语义对齐的多尺度特征图; 多尺度特征图输入至特征融合编码器进行处理;具体地,首先对每个尺度的特征图降低通道维度,然后通过上采样将所有特征图统一到相同的空间尺寸并沿通道轴进行拼接,最后通过残差连接和批量归一化进行精炼,并应用全局平均池化生成校准视觉嵌入向量; 步骤2.2:搭建文本编码分支,该分支包括预训练的CLIP文本编码器、可学习的适配器;对文本描述进行编码,最终生成与HOI任务对齐的HOI知识库; 步骤2.3:对齐与优化:将校准视觉嵌入向量与HOI知识库进行匹配,计算每种HOI类别的相似度分数; 步骤2.4:采用二元交叉熵损失函数作为监督信号,对教师模型中的可学习参数进行优化; 第二阶段:学生模型HOI检测器的训练; 步骤3:使用一个预训练的目标检测器对完整图像进行处理,生成候选的人、物区域及其特征,并融合其空间位置信息; 步骤4:利用步骤3得到的特征构建图结构,然后通过图网络学习模块对候选的人-物对进行关系推理和筛选,并生成优化后的人-物对融合特征; 步骤5:利用一个交互解码器对融合特征进行解码,通过混合损失函数对学生模型进行端到端监督优化,引入教师模型生成的软标签,将教师模型的泛化知识迁移至学生模型;所述混合损失函数由下式表示: ; 其中,为监督人-物对学习器的配对损失;为利用真实标签计算的硬标签损失;为软标签损失;为平衡超参数; 第三阶段:预测过程; 步骤6:利用训练好的HOI检测器进行后续检测任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励