齐鲁工业大学杨国立获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉齐鲁工业大学申请的专利一种基于模块可编程扩展的ETL工具构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115577028B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211227362.5,技术领域涉及:G06F16/25;该发明授权一种基于模块可编程扩展的ETL工具构建方法是由杨国立;姜树明;魏志强;李凤娇;张莹莹;李建设计研发完成,并于2022-10-09向国家知识产权局提交的专利申请。
本一种基于模块可编程扩展的ETL工具构建方法在说明书摘要公布了:本发明涉及数据处理领域,尤其是一种基于模块可编程扩展的ETL工具构建方法,针对数据工程中,数据处理遇到的大量频繁查询、复杂交叉转换、分布式实时处理等问题,根据解决问题的不同分为面向查询服务的、面向多维数据的和面向大数据的三种,面向查询服务的重点关注构件组装、源表解析、查询配置、结果输出等功能,面向多维数据的重点关注抽取、转换、质量、装载、配置等规则设计,面向大数据重点关注分布式部署、实时数据处理和存储。
本发明授权一种基于模块可编程扩展的ETL工具构建方法在权利要求书中公布了:1.一种基于模块可编程扩展的ETL工具构建方法,其特征在于包括以下步骤: S1、对ETL工具模块化分割,每个构件包括类、函数和变量,是独立的和可组装、替换、配置、编程和执行的程序模块,对内构件参数覆盖功能,对外提供一组规范化接口; S2、在数据查询服务中,在pycharm中新建项目或模块,根据源数据库的类型从构件库中选择合适的输入数据引擎读取构件、写入构件、报表生成构件,接入源数据所在数据库,将查询结果存到txt、excel报表或者数据仓库中; S3、对于多维数据交叉转换,将多表头的Excel表格数据抽取到关系数据库,实现数据和多个维度组合唯一对应的关系; S4、对于大数据时,通过BS架构web管理系统,对ETL分布式集群进行管理,共同配置部分由ZooKeeper统一管理,通过消息中间件Kafka集群实现消息的转发; 步骤S2中,在数据查询服务中,针对集成工具在数据工程中应具有批量数据查询和导出合适格式的数据的功能,设计了一种面向查询服务的ETL工具构建方法,快速数据处理,构建步骤包括:S21,在pycharm中新建项目或模块,根据源数据库的类型从构件库中选择需要的输入数据引擎读取构件、写入构件、报表生成构件,接入源数据所在数据库;S22,配置源表解析模块,包括多条sql查询语句文档和逻辑代码执行程序,或者根据需求编写新的业务处理逻辑;S23,根据目标数据格式配置输出数据引擎模块,将查询结果存到txt、excel报表或者数据仓库中;S24,组合以上过程,运行得到文档,经人工调整完成本次查询服务; 步骤S3中,设计面向多维数据ETL工具,其中配置文件Config.json,多值可通过嵌套实现,多维数据转换ETLmain算法,其中输入是根据路径读取配置文件中的数据得到Public、Data、Dim和Table四类数据:Publicyear、city;Datacolumn_start、columns;Dimrow_start、row、row_code_num、sql_model_table;Table数据:excel_data,总行数:total_row,开始行row_start,流程通过调用delete.json文件进行删除或更新操作,判断row_start是否小于total_rows,构造多维度模型sql_model和value两个向量,组合成可执行的insert_sql_model语句,实现数据转换,将多维数据按二维数据格式存储到关系数据库中的表中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学,其通讯地址为:250013 山东省济南市历下区科院路19号西区山东省科学院情报研究所;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。