Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院合肥物质科学研究院汪增福获国家专利权

中国科学院合肥物质科学研究院汪增福获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院合肥物质科学研究院申请的专利基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115393879B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211078512.0,技术领域涉及:G06V30/412;该发明授权基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用是由汪增福;姜飞设计研发完成,并于2022-09-05向国家知识产权局提交的专利申请。

基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用在说明书摘要公布了:本发明公开了一种基于傅里叶级数编码的任意形状文本检测与矫正方法及应用,其步骤包括:1构建训练数据集,包括数据的获取以及预处理;2构建任意形状文本检测网络,训练网络,调整参数,得到最优的任意形状文本检测网络,具体采用以ResNet50为基础的神经网络架构,整个网络包括特征提取器、编码器以及解码器;3检测结果后处理,具体采用双线性插值矫正处理。本发明能用于对自然场景图片中任意形状文本的高精度检测和形状矫正,从而能提高图片中任意形状文本的识别精度。

本发明授权基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用在权利要求书中公布了:1.一种基于傅里叶级数编码的任意形状文本的检测与矫正方法,其特征在于,包括以下步骤: 步骤1:构建训练数据集,包括数据的获取以及预处理: 步骤1.1:获取文本图像数据集记为I={I1,I2,...,Ip,...,Iu},Ip表示文本图像数据集I中第p张文本图像,u表示文本图像数据集I中文本图像的总数目; 步骤1.2:提取第p张文本图像Ip中的文本区域,得到相对应的文本区域边界点集合记为并形成文本区域边界,其中,表示第p张文本图像Ip中文本区域的第q个边界点坐标,l表示文本区域的边界点数目; 步骤1.3:获取第p张文本图像Ip中文本区域trp的文本中心线区域tcrgtp、文本头部区域thrgtp、文本尾部区域ttrgtp、文本上下边界区域tbrgtp;从而得到文本图像数据集I的文本中心线区域集合记为tcrgt={tcrgt1,tcrgt2,...,tcrgtp,...tcrgtu};文本头部区域集合记为thrgt={thrgt1,thrgt2,...,thrgtp,...,thrgtu},文本尾部区域集合记为ttrgt={ttrgt1,ttrgt2,...,ttrgtp,...ttrgtu},文本上下边界区域集合记为tbr={tbrgt1,tbrgt2,...,tbrgtp,...,tbrgtu}; 步骤1.4:在极坐标系下对第p张文本图像Ip进行建模,得到相对应的文本图像从而得到极坐标系下的文本图像集合为 步骤1.5:获取第p张文本图像内文本区域的中心点xp,yp,且以文本区域的中心点xp,yp为发射点,按照相同的角度间隔发射k条射线,并与所述文本区域边界相交,得到文本区域中心点到文本区域边界点之间的距离集合记为其中,表示第p张文本图像内文本区域的中心点xp,yp到文本区域的第s个边界点间的距离,从而得到文本图像集合的距离集合记为reggt={reggt1,reggt2,...,reggtp,...,reggtu}; 步骤2:构建任意形状文本检测网络,包括:特征提取器、编码器和解码器;并将所述的文本图像集合输入所述任意形状文本检测网络中; 步骤2.1所述特征提取器由ResNet50网络,反卷积网络和特征金字塔网络组成; 所述第p张文本图像依次经过RestNet50网络、反卷积网络和特征金字塔网络后输出第p个特征图resultp;从而由特征提取网络输出文本图像集合的特征图集合result={result1,result2,...,resultp,...,resultu}; 步骤2.2所述编码器,包括:分类编码器和回归编码器;其中,所述分类编码器由r个卷积核为e×e的二维卷积层和r个ReLU非线性激活层交替连接而成;所述回归编码器由v个卷积核为c×c的二维卷积层和v个ReLU非线性激活层交替连接而成; 所述特征图resultp经过分类编码器的处理后,输出第p个分类特征图clsp; 所述特征图resultp经过回归编码器的处理后,输出第p个回归特征图regp; 步骤2.3所述解码器,包括:分类解码器和回归解码器;其中,所述分类解码器依次由1个卷积核为f×f的二维卷积层,1个softmax函数组成;所述回归解码器依次由1个卷积核为w×w的二维卷积层,1个反傅里叶变换函数组成; 所述第p个分类特征图clsp经过分类解码器的处理后,输出预测的第p个文本中心线区域tcrpredp,预测的第p个文本头部区域thrpredp、预测的第p个文本尾部区域ttrpredp、预测的第p个文本上下边界区域tbrpredp;从而由分类解码器输出文本图像集合预测的文本中心线区域集合tcrpred={tcrpred1,tcrpred2,...,tcrpredp,...,tcrpredu},预测的文本头部区域集合thrpred={thrpred1,thrpred2,...,thrpredp,...,thrpredu},预测的文本尾部区域集合ttrpred={ttrpred1,ttrpred2,...,ttrpredp,...,ttrpredu},预测的文本上下边界区域集合tbrpred={tbrpred1,tbrpred2,...,tbrpredp,...,tbrpredu}; 所述第p个回归特征图regp经过回归解码器的处理后,输出预测的第p个距离集合其中,表示由任意形状文本检测网络预测的第p张文本图像内文本区域中心点xp,yp到文本区域的第g个边界点的距离;从而由回归解码器输出文本图像集合预测的距离集合记为: regpred={regpred1,regpred2,...,regpredp,...,regpredu}; 步骤2.4使用式1建立反向传播的损失函数L: L=Ltcr+Lthr+Lttr+Ltbr+Lreg1 式1中,Ltcr,Lthr,Lttr,Ltbr均为交叉熵损失,并分别由式2,式3,式4,式5得到; 式1中,Lreg是smoothl1损失,并由式6得到; 步骤2.5:基于所述文本图像集合利用梯度下降法对任意形状文本检测网络进行训练,并计算损失函数L,当训练迭代次数达到设定的次数或者损失误差小于设定的阈值时,训练停止,从而得到最优的任意形状文本检测网络; 步骤3:检测结果后处理,包括:双线性插值矫正处理; 步骤3.1利用最优的任意形状文本检测网络对文本图像数据集合进行处理并输出相应的文本区域边界集合记为txt={txt1,txt2,...,txtp,...,txtu},其中,txtp表示第p张文本图像中的文本区域边界; 步骤3.2利用双线性插值对所述文本区域边界集合txt进行矫正处理后,得到矫正后的文本集合记为txt′={txt1′,txt′2,...,txt′p,...,txt′u};其中,txt′p表示p张文本图像中的矫正后的文本区域边界。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院合肥物质科学研究院,其通讯地址为:230031 安徽省合肥市蜀山区蜀山湖路350号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。