中国科学院软件研究所代培元获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院软件研究所申请的专利一种分隔符格式文件高性能分析的方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118227669B 。
龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410300118.X,技术领域涉及:G06F16/2455;该发明授权一种分隔符格式文件高性能分析的方法及装置是由代培元;张珩;武延军设计研发完成,并于2024-03-15向国家知识产权局提交的专利申请。
本一种分隔符格式文件高性能分析的方法及装置在说明书摘要公布了:本发明涉及一种分隔符格式文件高性能分析的方法及装置。该方法包括:通过迭代的方式采样输入文件中的控制字符,确定控制字符的符号状态和逻辑位置;根据控制字符确定有限状态推导器模型中应当选取的字符转换层级,所述字符转换层级包括记录级和字段级;将输入文件切分为相等大小的文本块,并将其放入空闲处理单元中,基于有限状态推导器模型实现并行扫描,并利用SIMD加速分隔符的识别,生成位图索引;基于位图索引进行查询,包括关键字搜索查询模式和文件联合查询模式。本发明在线程级与指令级实现了并行处理,解决了CSV文件处理受制于固有格式而只能串行处理的速度瓶颈问题,并提升了处理速度。
本发明授权一种分隔符格式文件高性能分析的方法及装置在权利要求书中公布了:1.一种分隔符格式文件高性能分析的方法,其特征在于,包括以下步骤: 通过迭代的方式采样输入文件中的控制字符,确定控制字符的符号状态和逻辑位置; 根据控制字符确定有限状态推导器模型中应当选取的字符转换层级,所述字符转换层级包括记录级和字段级; 将输入文件切分为相等大小的文本块,并将其放入空闲处理单元中,基于有限状态推导器模型实现并行扫描,并利用SIMD加速分隔符的识别,生成位图索引,所述位图索引将分隔符的逻辑位置映射到物理位置; 基于位图索引进行查询,包括关键字搜索查询模式和文件联合查询模式; 所述通过迭代的方式采样输入文件中的控制字符,包括采用启发式算法检查文件中的控制字符,即只要遇到控制字符中的某控制字符,视为该文件中包含控制字符并停止检查该控制字符,直至包含控制字符中的全部字符或至文件末尾;并且,使用SIMD指令集快速对CSV文件中连续字符串是否包含某类控制字符做出判断,扩大采样范围的同时尽可能维持原先的采样速度;所述启发式算法的公式如下: klog2length-i 其中,fx表示每次采样时指针应指向的位置,k表示采样的次数,length表示文本的长度,i表示初始指针所指向的位置,i的取值为100; 所述有限状态推导器是基于状态最小化的有限状态推导器,包括CSV格式文件转换的IR、ER、IQ、EQ四种状态及其对应的转换,其中IR表示记录内,ER表示记录结束, IQ表示引号内,EQ表示引号结束; 所述四种状态对应的转换包括: 从IR到ER的转换:当前状态为IR时,此时经过的字符为换行符,转换为ER;从IR到IQ的转换:当前状态为IR时,此时经过的字符为双引号,转换为IQ;从IR到IR的转换:当前状态为IR时,此时经过除换行符与双引号外的其他字符,转换为IR; 从ER到IQ的转换:当前状态为ER时,此时经过的字符为双引号,转换为IQ;从ER到IR的转换:当前状态为ER时,此时经过的符号为其他字符,转换为IR; 从IQ到EQ的转换:当前状态为IQ时,此时经过的字符为双引号,转换为EQ;从IQ到IQ的转换:当前状态为IQ时,此时经过的字符为逗号、换行符和其他字符,转换为IQ本身; 从EQ到IQ的转换:当前状态为EQ时,此时经过的字符为双引号,转换为IQ;从EQ到ER的转换:当前状态为EQ时,此时经过的字符为换行符,转换为ER;从EQ到IR的转换:当前状态为EQ时,此时经过的字符为逗号,转换为IR; 所述根据控制字符确定有限状态推导器模型中应当选取的字符转换层级,包括:当采样不存在双引号时,认为能够通过记录级的字符转换确定分隔符所处的位置;当采样存在双引号时,认为需要结合字段级,进行字段级的字符转换以确定分隔符所处的位置。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院软件研究所,其通讯地址为:100190 北京市海淀区中关村南四街4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。