兴业银行股份有限公司;兴业数字金融服务(上海)股份有限公司张云粮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉兴业银行股份有限公司;兴业数字金融服务(上海)股份有限公司申请的专利自动化加载大数据的加载方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115934189B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211556833.7,技术领域涉及:G06F9/445;该发明授权自动化加载大数据的加载方法和系统是由张云粮;廖韵文;唐进;魏东旺;胡小明设计研发完成,并于2022-12-06向国家知识产权局提交的专利申请。
本自动化加载大数据的加载方法和系统在说明书摘要公布了:本发明提供了一种自动化加载大数据的加载方法和系统,包括:检查并将数据文件、数据标志文件上传分布式文件系统HDFS;进行初始化配置,将数据检查上传步骤中生产的数据处理后进行切片,写入集群上不同的机器上的缓存区;将缓存区中的数据写入到分布式文件系统HDFS上形成新文件,通过hive自动读取到分布式文件系统HDFS目录上写入的新文件。本发明提高了大数据自动化加载的速度,改善了mapReduce的容错性、减少了数据倾斜的可能性并且基本上覆盖大数据读入后要求的textFile、Parquet、ORC等不同格式的需求,使得自动化加载系统更加具有普遍适应性。
本发明授权自动化加载大数据的加载方法和系统在权利要求书中公布了:1.一种自动化加载大数据的加载方法,其特征在于,包括: 数据检查上传步骤:检查并将数据文件、数据标志文件上传分布式文件系统HDFS; 配置数据切片步骤:进行初始化配置,将数据检查上传步骤中生产的数据处理后进行切片,写入集群上不同的机器上的缓存区; 自动读取步骤:将缓存区中的数据写入到分布式文件系统HDFS上形成新文件,通过hive自动读取到分布式文件系统HDFS目录上写入的新文件; 所述配置数据切片步骤,包括: 步骤S3:注册SparkSQL并且启用HiveSupport,通过SparkSQL读取到数据标志文件中的字段信息,并且将字段信息转变为hive建表语句,执行SparkSQL建立相应的hive表;同时将表结构语句作为json文件输出到HDFS临时文件上; 步骤S4:初始化加载方法的基本信息; 步骤S5:建立序列化对象,并且对于不同的字段类型给予不同的编号代码;将步骤S3中生成的临时文件读入,将产生的表结构信息放到对象中,此时对象获得每个字段在Byte下开始的位置、结束的位置、数据类型、数据最大占用长度; 步骤S6:配置MapReduce的Job的基本信息; 步骤S7:重写MapReduce的切片机制,对步骤S5处理后的数据进行切片,得到切片数据; 步骤S8:对切片数据进行map函数的步骤,均匀的写入集群上不同的机器上的缓存区; 其中,切片的方式包括指定为换行符,记为方式1,还包括按照字段的Byte长度进行切割,记为方式2;所述方式1的输出数据主键为IntWriteable类型,值为Text类型,所述方式2的输出数据主键为IntWriteable类型,值为ByteWriteable类型;其中,默认基于方式1加载数据,当数据中有脏数据时,加载行数与数据文件不一致,自动执行基于方式2加载数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人兴业银行股份有限公司;兴业数字金融服务(上海)股份有限公司,其通讯地址为:350014 福建省福州市台江区江滨中大道398号兴业银行大厦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。