成都工业学院刘胤田获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都工业学院申请的专利档案文件智能识别大模型的训练方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120913226B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511454591.4,技术领域涉及:G06V30/19;该发明授权档案文件智能识别大模型的训练方法、装置、设备及介质是由刘胤田;刘亚飞;向勇;周正娟;易小芹设计研发完成,并于2025-10-13向国家知识产权局提交的专利申请。
本档案文件智能识别大模型的训练方法、装置、设备及介质在说明书摘要公布了:本发明公开了档案文件智能识别大模型的训练方法、装置、设备及介质,涉及文档识别技术领域。训练方法包括:搭建第一阶段训练的自监督扩散模型:将图像样本进行随机掩码处理生成掩码图像样本,分别输入到图像编码器中提取高维信息,利用tokens选择模块进一步增强注意力图的判别性,并通过注意力重聚焦机制动态调整任务相关参数的权重,提升模型对任务目标的感知能力,结合空文本嵌入的文字编码器作为扩散模型的条件输入,使用扩散模型的生成反馈优化编码器;搭建第二阶段微调的Qwen‑vl大模型:冻结第一阶段训练的图像编码器,采用少量样本微调Qwen‑vl大模型。本发明实现了档案识别大模型在复杂场景的视觉推理和细粒度感知能力,提高了档案识别泛化性和精度。
本发明授权档案文件智能识别大模型的训练方法、装置、设备及介质在权利要求书中公布了:1.档案文件智能识别大模型的训练方法,其特征在于,包括: 搭建自监督扩散模型,所述自监督扩散模型包括图像编码器、文字编码器、tokens选择模块、注意力重聚焦机制、特征拼接模块和扩散模型; 基于所述自监督扩散模型训练所述图像编码器,训练方法为: 获取档案文件的原始图像,对所述原始图像进行随机掩码处理,生成掩码图像; 将所述原始图像及其掩码图像分别输入所述图像编码器中提取高维信息,得到原始图像特征和掩码图像特征;将空文本输入所述文字编码器中,得到空文本嵌入向量; 将所述原始图像特征和掩码图像特征输入所述tokens选择模块聚焦关键区域,所述tokens选择模块包括: 可学习提示参数模块,用于提供可学习提示参数,所述可学习提示参数是与图像编码器输出特征维度一致的可学习变量,可学习提示参数中的每个向量用于在训练中学习一种档案关键特征; 余弦相似矩阵计算模块,用于计算所述原始图像特征与所述可学习提示参数的余弦相似度矩阵以及所述原始图像特征对应的掩码图像特征与所述可学习提示参数的余弦相似度矩阵; 特征相乘层,用于将两个所述余弦相似度矩阵与所述原始图像特征相乘,以基于所述余弦相似度矩阵聚焦关键区域,得到关联图; 再通过所述注意力重聚焦机制对所述关联图动态调整注意力权重,得到自注意力融合特征; 通过所述特征拼接模块拼接所述自注意力融合特征和所述空文本嵌入向量,得到的拼接特征作为条件向量输入所述扩散模型中,利用所述扩散模型重构带随机噪声的原始图像; 对所述tokens选择模块引入方差损失函数,基于所述方差损失函数和和扩散模型的扩散损失函数联合优化所述图像编码器的参数,其中, 所述方差损失函数表示为: 其中,表示原始图像与可学习提示参数的余弦相似度矩阵,表示掩码图像与可学习提示参数的余弦相似度矩阵,E表示均值计算; 将Qwen-vl大模型的原始图像编码器替换为训练后的所述图像编码器,并冻结所述图像编码器的参数,搭建微调Qwen-vl结构,利用少量原始图像对所述Qwen-vl大模型进行低秩微调训练,得到档案文件智能识别大模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都工业学院,其通讯地址为:610000 四川省成都市金牛区花牌坊街2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励