合肥工业大学胡珍珍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥工业大学申请的专利一种基于主要目标面向场景的文字字幕生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115546571B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211211730.7,技术领域涉及:G06V20/62;该发明授权一种基于主要目标面向场景的文字字幕生成方法是由胡珍珍;唐文亮;宋子杰;洪日昌设计研发完成,并于2022-09-30向国家知识产权局提交的专利申请。
本一种基于主要目标面向场景的文字字幕生成方法在说明书摘要公布了:本发明公开了一种基于主要目标面向场景的文字字幕生成方法,涉及图像描述生成技术领域技术领域。对图像进行预处理得到包括关于M个物体中每个物体的物体区域框坐标、物体视觉特征、物体表征向量和关于N个文字中每个文字的文字区域框坐标、文字视觉特征、文字表征向量的样本数据;建立物体区域框坐标和文字区域框坐标之间的图关系;图卷积网络模型根据图关系对物体表征向量、文字表征向量进行增强得到增强特征;将增强特征发送到解码模型进行解码得到表述图片内容的句子。引入场景文字的主要目标概念,去除了场景图中冗余和干扰信息。关注图像中物体的同时也注重了图像的文本与物体之间的关系,生成的句子对场景文字的描述字幕更加准确。
本发明授权一种基于主要目标面向场景的文字字幕生成方法在权利要求书中公布了:1.一种基于主要目标面向场景的文字字幕生成方法,其特征在于,具体包括以下步骤: 对图像进行预处理得到样本数据,其中,样本数据包括关于M个物体中每个物体的物体区域框坐标、物体视觉特征、物体表征向量,样本数据还包括关于N个文字中每个文字的文字区域框坐标、文字视觉特征、文字表征向量; 提取物体区域框坐标和文字区域框坐标,建立两者之间的图关系; 图卷积网络模型根据图关系对物体表征向量、文字表征向量进行增强,得到增强特征; 将增强特征发送到解码模型进行解码,得到表述图片内容的句子; 解码模型采用多次循环迭代直到预测到句子的结尾标志; 多次循环迭代结束后,根据索引和单词-编号对照表,得到描述图片内容的句子; 其中,多次循环迭代中的每一次包括以下过程: 将上一次预测中得到的解码向量、上一次预测中得到的单词向量、输入解码模型的增强特征的平均值、上一次预测中得到的加权特征进行拼接得到本次输入的解码向量,其中,加权特征经过注意力机制计算得到; 采用门控机制调整解码向量中文字视觉特征的比重后得到本次预测的加权解码向量,本次预测的加权解码向量经过线性分类网络计算后得到本次预测的预测分数; 在预测分数中获取最大预测分数的索引; 在循环迭代的第t次中,将上一次预测得到的的解码向量、上一次预测得到的单词向量、输入解码模型的增强特征的平均值、上一次预测中得到本次的加权特征进行拼接的公式包括: 向量拼接计算公式: 式中:xt表示本次输入的解码向量,ht表示第t次预测的解码向量,yt-1表示第t-1次预测的单词向量,表示输入解码模型的增强特征的平均值,表示第t-1次的加权特征; 输入解码模型的增强特征的平均值计算公式: 式中:表示增强特征的平均值,i表示增强特征的序号下标,表示总数M+N的增强特征中第i个增强特征; ht,ct=LSTMht-1,ct-1,xt 式中:ct表示当前第t步的单元状态,ht-1表示上一次的解码向量,ct-1表示上一次的单元状态; 注意力机制计算公式: 式中:表示第t步的加权特征,X表示增强特征集合。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励