Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华中科技大学白翔获国家专利权

华中科技大学白翔获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华中科技大学申请的专利一种基于CLIP的端到端场景文本识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117058667B

龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311154735.5,技术领域涉及:G06V20/62;该发明授权一种基于CLIP的端到端场景文本识别方法是由白翔;余文文;祝星馗;刘禹良设计研发完成,并于2023-09-07向国家知识产权局提交的专利申请。

一种基于CLIP的端到端场景文本识别方法在说明书摘要公布了:本发明公开了一种基于CLIP的端到端场景文本识别方法:通过对大规模视觉语言预训练模型CLIP进行改进,利用CLIP预训练好的图像编码器和文本编码器,引入了语言提示生成器、视觉提示生成器以及文本实例与语言匹配模块。通过借助CLIP中的语言知识,FastTCM能够有效辅助下游文本检测和端到端文本识别任务,从而显著提升了现有场景文本检测器和端到端文本识别器的准确度。此外还能增强在小样本学习情景下的表现,并提升模型的泛化能力。极大地拓展了场景文本检测和端到端文本识别的应用领域,有望在诸如图像标注、文档分析等领域发挥重要作用。通过整合语言和视觉信息为端到端场景文本识别提供了全新的范式,为深度学习技术在文本识别领域的发展做出了积极贡献。

本发明授权一种基于CLIP的端到端场景文本识别方法在权利要求书中公布了:1.一种基于CLIP的端到端场景文本识别方法,其特征在于,包括如下步骤: 步骤一:提取图像特征,将CLIP预训练好的Resnet50模型作为图像编码器,将图像输入到图像编码器中,得到全局图像嵌入特征; 步骤二:构造文本输入,首先,使用预定义的语言提示“Text”作为输入的一部分,将其通过WordEmbedding编码为向量;其次,构造可学习的语言提示向量,作为文本输入的一部分;接着,将预定义语言提示向量和可学习的语言提示向量进行合并,得到初步的文本编码器输入;最后使用语言提示生成器,生成条件提示特征向量,对于每个图像,条件提示特征向量都和初步的文本编码器的输入结合作为最终的文本编码器输入; 步骤三:提取文本特征,将CLIP预训练好的Transformer模型作为文本编码器,使用文本编码器提取得到文本嵌入; 步骤四:增强文本嵌入,使用双模态相似性匹配模块,利用全局图像嵌入特征对文本嵌入进行增强,得到最终的文本嵌入;所述步骤四具体包括:双模态相似性匹配模块是用来控制应该用于补偿文本模态嵌入的视觉模态信息的数量;首先对全局图像嵌入特征I进行全局求平均得到全局图像平均嵌入给定文本嵌入tout和全局图像平均嵌入计算tout和之间的余弦相似度将sim作为输出门的相关性阈值,该门控制用于补偿文本模态嵌入的视觉模态信息的数量;接下来使用相关性阈值sim,按以下方式对tout和进行加权求和:其中即为文本编码器的最终输出; 步骤五:生成条件视觉提示,使用视觉提示生成器,以自适应方式将文本特征中的细粒度语义信息传播到视觉特征中,得到条件视觉提示;使用Transformer中的交叉注意力机制,用于建模图像嵌入特征和文本嵌入之间的相互作用;然后,融合全局图像嵌入特征和条件视觉提示得到文本感知的局部图像特征; 步骤六:对最终的文本嵌入和文本感知的局部图像特征进行文本实例-语言匹配对齐,采用点积后接Sigmoid操作得到文本分割图; 步骤七:在训练阶段,一方面,使用下游的任务头即文本检测头或者端到端文本识别头获得对应的损失;另一方面,使用交叉熵优化文本分割图作为辅助损失,两者联合优化模型参数; 步骤八:在推理阶段,使用对应的任务头的输出作为模型的最终输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华中科技大学,其通讯地址为:430074 湖北省武汉市洪山区珞喻路1037号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。