浙江大学计算机创新技术研究院赵俊博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学计算机创新技术研究院申请的专利一种二维表格数据多模态模型的设计和训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119398018B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411975829.3,技术领域涉及:G06F40/18;该发明授权一种二维表格数据多模态模型的设计和训练方法是由赵俊博;陈刚;查良瑜;王皓波;伍赛设计研发完成,并于2024-12-31向国家知识产权局提交的专利申请。
本一种二维表格数据多模态模型的设计和训练方法在说明书摘要公布了:本发明公开了一种二维表格数据多模态模型的设计和训练方法。本发明首先设计二维表格数据多模态模型,其包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成;通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义;然后预训练表格表征模块,使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息;最后对表格表征模块和大语言模型解码器进行对齐训练,采用表格表征模块和大语言模型解码器进行联合监督微调。本发明能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务,有效提升二维表格问答、代码生成等任务的效果和性能。
本发明授权一种二维表格数据多模态模型的设计和训练方法在权利要求书中公布了:1.一种二维表格数据多模态模型的设计和训练方法,其特征在于包括如下步骤: 步骤一:设计二维表格数据多模态模型 所述的二维表格数据多模态模型包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成; 所述表格表征模块的输入来自于外部的表格,表格表征模块的输出连接表格表征词嵌入集; 通过表格表征模块中的所述双向注意力模块处理使得所述表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义; 步骤二:预训练表格表征模块 使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息; 步骤三:对表格表征模块和大语言模型解码器进行对齐训练 采用表格表征模块和大语言模型解码器进行联合监督微调,所述监督微调采用纯表格QA数据,训练损失函数采用监督微调损失; 步骤一中,每个双向注意力模块交替使用Qformer风格的双向注意力,沿着行和列分别计算交叉注意力,用以捕获表格行列分布属性和行列关系,为了保持表格行和列的置换不变性,在双向注意力中排除了位置嵌入信息; 每个双向注意力模块还连接一个适配器,所述适配器用于生成更完整的表格信息表征;所述适配器在表格列级别聚合单元格内容信息,并将其与文本特征对齐,将具有m行的表格转换为大小为k的固定长度列表示,与大语言模型解码器的嵌入维度相匹配; 还包括文本变换器,用于为每个单元格获取紧凑的表格表征词嵌入集ET=[ΦC11,…,ΦCmn]∈Rm×n×d,其中d是每个单元格嵌入的维度,cij表示第i行第j列的单元格内容,Φ为文本变换器; 步骤二中,训练任务基于收集的开源数据表格,对批次中的每个开源数据表格进行随机采样,创建两个表格切片,这两个表格切片共享相同的维度,但使用了不同的表格单元格,使用表格表征模块生成一个包含每个切片中列的嵌入池; 训练使用对比学习损失,其中正样本对由两个快照中相同的列对应的词嵌入构成; 步骤三中,所述表格QA数据的输入包含表格的表征信息、代码生成提示词和人类问题三个部分,所述表格QA数据的输出根据提示词的要求,分为python代码和SQL代码两种类型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学计算机创新技术研究院,其通讯地址为:311200 浙江省杭州市萧山区利一路188号天人大厦33楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。