北京大数元科技发展有限公司胡杞燚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京大数元科技发展有限公司申请的专利一种表格图片数据解析方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114066868B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111396224.5,技术领域涉及:G06T7/00;该发明授权一种表格图片数据解析方法、装置及存储介质是由胡杞燚;陈国强;姬永杰;朱培冬;王长勇设计研发完成,并于2021-11-23向国家知识产权局提交的专利申请。
本一种表格图片数据解析方法、装置及存储介质在说明书摘要公布了:本发明公开了一种表格图片数据解析方法、装置及存储介质,该方法包括:获取表格图片,对表格图片进行降噪及倾斜矫正处理;计算表格图片中每个单元格的位置信息并对单元格进行裁切;识别每个单元格中的字符内容并将字符内容与单元格位置信息进行关联存储。实施本发明的表格图片数据解析方法,获取表格图片,通过拆分表格图片为单个独立的单元格图片切片,再对单元格图片切片进行文字识别,并对应保存单元格位置信息和文字信息。通过本方法描述的各步骤,解决了传统图像识别中对整张图片进行整体识别而忽略了表格边框线的作用,导致丢失了表格的结构化信息的弊端。从而达到对带有表格的图片解析时,提高结构化的程度,减少数据丢失的效果。
本发明授权一种表格图片数据解析方法、装置及存储介质在权利要求书中公布了:1.一种表格图片数据解析方法,其特征在于,所述方法包括: 获取表格图片,对所述表格图片进行降噪及倾斜矫正处理; 计算表格图片中每个单元格的位置信息并对单元格进行裁切; 识别每个单元格中的字符内容并将所述字符内容与单元格位置信息进行关联存储; 所述对所述表格图片进行降噪及倾斜矫正处理的步骤具体包括: 对所述表格图片进行二值化处理以及膨胀、腐蚀操作,去除表格图片中的文字及干扰信息; 获取所述表格图片中的横线和纵线,分别得到横线图、纵线图及原图; 对横线图或纵线图求横线或纵线的平均倾斜角; 根据所述平均倾斜角对所述横线图、纵线图及原图进行倾斜矫正; 所述计算表格图片中每个单元格的位置信息并对单元格进行裁切的步骤包括: 计算横线图和纵线图中坐标相同的像素点,获得横线和纵线的全部交点; 将全部交点的坐标按顺序保持为交点数组; 将横线图和纵线图中所有像素点的坐标保存为表格边框数组; 所述将全部交点的坐标按顺序保持为交点数组的步骤具体包括: 获取全部交点的坐标信息,将全部交点中纵坐标相同的交点作为一行,将所述全部交点按行划分为多行; 将每一行中的交点按横坐标从小到大进行排序,将每行按纵坐标从小到大进行排序,形成所述交点数组; 所述计算表格图片中每个单元格的位置信息并对单元格进行裁切的步骤具体包括: 从所述交点数组和表格边框数组中计算单元格左上角顶点、右上角顶点、右下角顶点和左下角顶点; 根据所述左上角顶点、右上角顶点、右下角顶点和左下角顶点坐标对单元格进行裁切; 所述从所述交点数组和表格边框数组中计算单元格左上角顶点的步骤具体包括: 取第n行交点数组中第m个点的坐标信息,记为点AXm,Yn; 获取第n行交点数组中的第m+1个点的坐标信息Xm+1,Yn; 计算第n行第m个点和第n行第m+1个点的中心点坐标(Xm+Xm+12,Yn); 判断所述表格边框数组中是否存在所述中心点坐标(Xm+Xm+12,Yn); 若存在,则认为点A为左上角顶点; 若不存在,则舍弃点A,取第n行交点数组中第m+1个点记为点A重复执行上述步骤。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京大数元科技发展有限公司,其通讯地址为:100000 北京市海淀区西北旺东路10号院东区10号楼6层6-18室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。