西北工业大学王琦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利基于递归学习的场景文字识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116259058B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310175764.3,技术领域涉及:G06V30/18;该发明授权基于递归学习的场景文字识别方法是由王琦;周情;袁媛设计研发完成,并于2023-02-28向国家知识产权局提交的专利申请。
本基于递归学习的场景文字识别方法在说明书摘要公布了:本发明提供一种基于递归学习的场景文字识别方法。构建了包括视觉特征提取模块和文本序列解码模块的场景文字识别网络,视觉特征提取模块中利用两个不改变特征图大小的卷积和基于自注意力机制的Transformer模块串联,再通过残差连接短接输入输出,构成一个递归单元,通过一定次数的递归迭代代替传统的堆叠式网络构建,能够在增大感受野、精炼特征的同时大幅减少模型参数。本发明能够解决传统堆叠式场景文字识别视觉特征网络参数量大、特征表达能力弱的问题,具有参数高效、网络轻量紧凑、特征鲁棒的优点。
本发明授权基于递归学习的场景文字识别方法在权利要求书中公布了:1.一种基于递归学习的场景文字识别方法,其特征在于步骤如下: 步骤1:将公开的MJSynth和SynthText英文数据集合成为训练数据集,所述的合成过程包括:字体渲染,边框和阴影渲染,背景着色,字体、边框和背景的合成,应用投影失真,与真实世界图像混合,添加噪声; 步骤2:利用训练数据集对场景文字识别网络进行训练,得到训练好的网络;其中,场景文字识别网络包括特征图预提取模块、视觉特征提取模块和文本序列解码模块,训练时的具体参数设置为:采用AdaDelta优化器,衰减率β=0.955,批量大小为152,迭代次数3.000.次,每2.0.次迭代后进行一次评估,采用梯度裁剪阈值为5,所有参数均采用何氏方法进行初始化; 所述的特征图预提取模块的具体处理过程为:输入图片,经过卷积层、池化层进行特征提取,得到特征图,特征图与空间变换参数矩阵进行融合,得到仿射变换后的特征图,对仿射变换后的特征图进行薄板样条插值变换,变换后的特征图作为下一模块的输入; 所述的视觉特征提取模块包括三个卷积层和一个递归残差模块,具体处理过程为:输入特征图,经过两个卷积核大小为3×3、步长为2、填充为1的卷积层,将特征图宽高分别减半并将通道数从3增加到128再增加到256,得到特征图V1;递归残差模块由卷积层、Transformer模块和残差连接模块构成,特征图V1经过两个卷积核大小为3×3、步长为1、填充为1的卷积层和8头1层的Transformer模块得到特征图V2′,通过残差连接将特征图V2′与V1相加得到特征图将特征图代替特征图V1输入递归残差模块,重复上述过程直到达到设置的递归次数;将递归模块最终得到的特征图经过一个卷积核大小为3×3、步长为2、填充为1的卷积层,将特征图宽高分别减半并将通道数增加到512,得到特征图V3;其中,每一个卷积层均包含ReLU激活函数和批量规范化函数; 所述的文本序列解码模块采用基于双向长短期记忆语言模型和注意力机制的序列解码方式,具体解码过程为:视觉特征提取网络的输出特征序列图V3经过LSTM单元,得到当前时刻的隐状态,利用当前时刻隐状态和视觉特征提取网络的输出特征计算Attention权重,使用Attention权重加权所有特征,得到当前时刻的上下文特征,将当前时刻的隐状态和上下文特征输入一个全连接层,计算得到当前位置的字符概率分布,将所有位置上的字符概率分布拼接起来,得到整个文本序列的概率分布; 步骤3:将待识别的场景文字图片输入到步骤2训练好的网络,以输出概率最大的类别作为文字图片识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。