浙江大学张寅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利一种布局和任务感知的文本提示零样本文档图片问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116775822B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310607370.0,技术领域涉及:G06F16/3329;该发明授权一种布局和任务感知的文本提示零样本文档图片问答方法是由张寅;王文瑾;罗聪;李昀昊设计研发完成,并于2023-05-26向国家知识产权局提交的专利申请。
本一种布局和任务感知的文本提示零样本文档图片问答方法在说明书摘要公布了:本发明公开了一种布局和任务感知的文本提示零样本文档图片问答方法。本发明包括如下步骤:1根据文档图片包含的内容构造包含布局信息的文档内容提示文本;2根据具体的任务需求构造任务描述提示文本模板;3根据任务描述提示文本模板以及内容提示文本和具体的问题生成完整的提示文本,将其输入大语言模型得到最后的问答结果。和现有技术相比,本发明通过人为精心设计提示文本有效利用了指令微调大语言模型强大的能力,实现了对文档图片的零样本问答,并且取得了与预训练微调范式下同类型模型相当的性能。
本发明授权一种布局和任务感知的文本提示零样本文档图片问答方法在权利要求书中公布了:1.一种布局和任务感知的文本提示零样本文档图片问答方法,其特征在于,步骤如下: S1:对文档图片进行OCR处理,提取出文档图片中包含的所有文本片段和每个文本片段对应的文本框坐标; S2:将S1中提取的所有文本片段按照对应的文本框坐标判断在文档图片中所处的原始行,并通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本;且组合过程中,所有文本片段按照对应的原始行进行排序,处于同一原始行中的文本片段继续放置于文档内容提示文本的同一行中,且上下两行之间通过添加换行符进行换行,而同一行的相邻文本片段之间通过添加空格来保证其横向间距与两者在文档图片中的原始布局一致,从而使组合后的文档内容提示文本保留原始文档中的布局信息; S3:读取针对目标问答任务设计的任务描述提示文本模板,该模板中包含具体任务描述、含有布局信息的文档内容提示占位符和具体问题占位符,将S2中组合形成的文档内容提示文本和用户输入的具体问题替换模板中相应的占位符,得到最终的任务描述提示文本并将其输入指令微调后的语言模型中,通过模型解码输出最后的问答结果; 所述S2中,通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本的具体方法如下: S21、首先根据每个文本片段的提取文本框的坐标,按照从上到下、从左到右的顺序对所有文本片段进行排列,记录在文档图片中处于同一原始行的文本片段以及其对应的文本框坐标,然后将单行中的所有文本框宽度之和除以这一行中的总字符数量,得到单个字符的平均字符宽度; 计算单个字符的平均字符宽度时,先查找到字符数量最多的行,然后以这一行作为基准计算平均字符宽度,进而表征整个文档图片中所有行的平均字符宽度; S22、然后将在文档图片中处于同一原始行的文本片段按照各自在文档图片中的横向空间顺序进行组合,相邻两个文本片段之间通过添加空格来维持其横向布局信息,且添加的空格数量由两个文本片段对应的文本框最小水平间距除以所述平均字符宽度得到; S23、将每一行组合文本按照其在文档图片中的竖向空间顺序从上到下排列,相邻两行组合文本之间通过添加换行符进行分隔。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。