厦门工学院王飞帆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门工学院申请的专利基于多模态大模型的课堂行为检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120183048B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510645941.9,技术领域涉及:G06V40/20;该发明授权基于多模态大模型的课堂行为检测方法是由王飞帆;吴至博;郑恩赐;王英杰;张锦煌;黄蓓;王林设计研发完成,并于2025-05-20向国家知识产权局提交的专利申请。
本基于多模态大模型的课堂行为检测方法在说明书摘要公布了:本发明公开了一种基于多模态大模型的课堂行为检测方法,具体包括:摄像头拍摄的视频文件作为输入数据,所述视频文件可以直接输入GroundingDINO进行目标检测,也可以先进行人脸识别,采用人脸识别InsightFace中的Sub‑CenterArcFace模型,识别到指定对象的人脸后可将人脸区域图像或目标框作为提示信息给到TrackAnything模型进行视频目标追踪,即在视频的每一帧中找到该对象的目标区域,接着将该区域单独送入GroundingDINO进行目标检测,判断是否是待检测行为目标。本发明可以得到每个人的行为检测结果,进而进行个体或群体的行为统计分析。
本发明授权基于多模态大模型的课堂行为检测方法在权利要求书中公布了:1.一种基于多模态大模型的课堂行为检测方法,其特征在于,包括: 通过摄像头获取原始视频,采用帧率控制策略对所述原始视频进行逐帧读取; 在每一帧中,调用InsightFace模型对所有人脸进行识别,并比对特定目标身份特征向量,获取目标对象; 识别所述目标对象中的目标人脸,提取所述目标人脸所在区域,作为TrackAnything模型的输入提示,所述TrackAnything模型基于MetaAI的SAM框架生成高精度目标掩码; 所述TrackAnything模型根据输入的提示在后续视频帧中自动追踪目标区域,输出目标在每帧中的边界框,具体包括:所述TrackAnything模型利用所述高精度目标掩码进行目标跟踪,更新每一帧的目标位置并重新生成掩码,跟踪过程中采用光流估计预测目标运动;对于每一帧z,目标位置更新为Bz,并重新生成掩码Mz;所述光流估计通过分析相邻帧之间像素强度的变化,推断目标的运动矢量,模型方程为:Ixu+Iyv+It=0,其中,Ix,y,t表示图像在位置x,y和时间t的亮度值,表示图像x方向的梯度,表示图像y方向的梯度,表示时间t的变化率,u表示水平方向的速度分量,v表示垂直方向的速度分量; 将每一帧中目标区域图像单独裁切后输入GroundingDINO模型,根据预设的行为关键词进行检测并输出目标检测结果,采用动态模板更新策略,当目标被部分遮挡或视角变化时,通过历史帧特征融合维持追踪的连续性; 所述采用动态模板更新策略,具体包括: 对每一帧裁切后的目标区域使用GroundingDINO生成视觉特征向量作为当前帧的临时模板; 采用公式新模板=α*当前帧特征+1-α*历史模板,其中,α表示更新系数; 采用滑动窗口更新,维护一个固定长度的历史帧队列,每次更新时丢弃最早的旧模板,纳入当前新模板; 当追踪置信度低于阈值时,暂停更新模板; 当前帧目标特征不完整时,通过历史模板中未遮挡部分的特征进行补充; 融合不同视角下的目标特征,构建多视角鲁棒模板,匹配时检索最接近当前视角的子模板; 每次更新前,使用当前模板在相邻帧中进行反向验证; 在模板中显式编码目标周围的背景特征,通过对比学习区分目标与相似干扰物; 根据所述目标检测结果,将每帧行为标签存储至课堂行为记录序列中,并通过行为分析模块生成学生个体或课堂群体的行为统计分析。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门工学院,其通讯地址为:361000 福建省厦门市集美区后溪镇孙坂南路1251号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励