Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学张旻获国家专利权

杭州电子科技大学张旻获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种基于可形变注意力机制的边缘信息融合的文档图像版面分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119942571B

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510031714.7,技术领域涉及:G06V30/41;该发明授权一种基于可形变注意力机制的边缘信息融合的文档图像版面分析方法是由张旻;叶栩见;汤景凡;姜明设计研发完成,并于2025-01-09向国家知识产权局提交的专利申请。

一种基于可形变注意力机制的边缘信息融合的文档图像版面分析方法在说明书摘要公布了:本发明公开了一种基于可形变注意力机制的边缘信息融合的文档图像版面分析方法,旨在通过融合文档图像边缘信息提升模型版面分析的准确性。首先在文档图像预处理阶段:本发明方法提出了包含三种不同的边缘信息提取算子的边界信息提取模块,以充分提取文档图像的边缘信息。为了更有效地利用文档图像的关键边缘信息,本发明方法提出一种基于可形变注意力机制的边缘信息融合模块,该模块能够同时根据文档图像边缘信息自适应的调整其注意力机制的感受野和注意力权重以适应不同的文档元素,增强模型对文档图像边缘信息的感知能力,使模型更加关注文档图像中的边缘特征,从而在文档图像版面分析时进一步提升模型版面分析的准确性。

本发明授权一种基于可形变注意力机制的边缘信息融合的文档图像版面分析方法在权利要求书中公布了:1.一种基于可形变注意力机制的边缘信息融合的文档图像版面分析方法,其特征在于,包括以下步骤: 步骤1:构建边缘信息提取模块,将待检测的图片作为原始图片输入边缘信息提取模块,利用三种不同的边缘提取算子得到三通道的边缘信息图;将原始图片与所述边缘信息图进行相同的预处理后分别输入SwinTransformer主干网络,利用滑动窗口机制进行图像特征提取,分别得到多尺度特征图ImageFeat∈[res2,res3,res4,res5]与多尺度图像边缘信息图Image_edgeFeat∈[res2e,res3e,res4e,res5e]; 步骤2:对多尺度特征图ImageFeat与多尺度图像边缘信息图Image_edgeFeat,进行通道数处理、下采样和展平操作,对多尺度特征ImageFeat进行位置编码;将展平后的图像特征图ImageFeat、边缘信息特征图Image_edgeFeat分别和位置编码Pos输入到Transformer编码器中,得到增强的图像特征序列memory和边缘信息特征序列memoryedge; 步骤3:将增强的图像特征序列memory,重新按照原始输入Transformer编码器前的各个特征图的大小进行分割,得到经过编码器后的各个尺度的特征图Image_encoderFeat∈[res2′,res3′,res4′,res5′,res6′];同时将res2和res2′进行融合,得到用于实例分割的像素嵌入图mask_features; 步骤4:对多尺度特征图Image_encoderFeat重新进行展平操作;并连同边缘信息特征序列memoryedge一起输入统一的Query筛选模型,所述统一的Query筛选模型包含提案生成过程以及三个预测头:分类头、检测头和分割头,再根据分类头生成的分类分数选择排名前topK个特征并将其分别作为内容查询Query和边缘信息查询Queryedge,利用生成的预测掩码进一步初始化参考点坐标refpoint_embed; 步骤5:将步骤4中得到的图像内容查询Query以及边缘信息查询Queryedge、参考点坐标refpoint_embed,输入由9层解码器层组成的Transformer解码器;每一个解码器层均包括一个基于可形变注意力机制的边缘信息融合模块,所述基于可形变注意力机制的边缘信息融合模块包括线性层Linearoffset、线性层Linearweight;使用基于可形变注意力机制的边缘信息融合模块,在嵌入维度上对图像内容查询Query以及边缘信息查询Queryedge进行融合,得到融合后的图像查询QueryFusion;将融合后的图像查询QueryFusion分别输入线性层Linearoffset和线性层Linearweight,分别得到关注边缘信息后的采样偏移量和关注边缘信息后的注意力权重矩阵;根据步骤2中得到的多尺度图像特征序列memory,进行结合权重的特征值采样以及相加,输出经过特征序列数组hs和参考点坐标reference; 步骤6:将步骤5中Transformer解码器生成的特征序列数组hs和参考点坐标reference,以及步骤3中得到的用于实例分割的像素嵌入图mask_features,输入统一的分类预测头和实例分割头,得到类别预测结果和初步的掩码预测结果; 步骤7:将步骤5中Transformer解码器生成的特征序列数组hs和参考点坐标reference,一同送入边界框预测迭代模块,进行基于每一层特征序列的边界框迭代操作,得到最后用于目标检测任务的边界框的预测结果;拼接步骤6中已经得到的类别预测结果和掩码预测结果,得到最后的关于文档图像版面分析的总体预测结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。