中国社会科学院民族学与人类学研究所安波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国社会科学院民族学与人类学研究所申请的专利一种面向汉藏双语古籍知识化方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120047953B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510108191.1,技术领域涉及:G06V30/148;该发明授权一种面向汉藏双语古籍知识化方法与系统是由安波;龙从军;赵维纳设计研发完成,并于2025-01-23向国家知识产权局提交的专利申请。
本一种面向汉藏双语古籍知识化方法与系统在说明书摘要公布了:本发明涉及古籍处理技术领域,具体公开了一种面向汉藏双语古籍知识化方法与系统,所述方法包括:通过引入藏文扩词表与配套预训练任务,构建同时支持汉语与藏语的多模态大模型,使其具备跨语言文本处理与图像理解能力;利用多模态大模型进行版面分析,自动识别并区分古籍中的图片区域、汉文文本区域及藏文文本区域;识别出的汉语文本和藏文文本分别执行实体与关系抽取,提取出核心要素及其相互联系;将跨语言、跨模态的文本与图像信息统一映射到一个可查询的知识图谱中,形成对古籍内容的语义化与关联化描述。本发明不仅有效解决了汉藏双语混排所带来的识别难题,还大幅提升了自动解析与知识抽取的准确度和效率,推动了学术资源的继承与传播。
本发明授权一种面向汉藏双语古籍知识化方法与系统在权利要求书中公布了:1.一种面向汉藏双语古籍知识化方法,其特征在于,所述方法包括: S1、通过引入藏文扩词表与配套预训练任务,构建同时支持汉语与藏语的多模态大模型,使其具备跨语言文本处理与图像理解能力; S2、利用多模态大模型进行版面分析,自动识别并区分古籍中的图片区域、汉文文本区域及藏文文本区域,并将插图或照片分离至图片服务器中,以便后续单独处理与展示; S3、对识别出的汉语文本和藏文文本分别执行实体与关系抽取,提取出核心要素及其相互联系,其中,所述核心要素包括人物、地名、时间、药材和制度; S4、将跨语言、跨模态的文本与图像信息统一映射到一个可查询的知识图谱中,形成对古籍内容的语义化与关联化描述; 所述通过引入藏文扩词表与配套预训练任务,构建同时支持汉语与藏语的多模态大模型,使其具备跨语言文本处理与图像理解能力的步骤包括: 藏文词表扩展:在原先大模型的词表中增加藏文音节或常见藏文词汇子集,并对相应的嵌入向量进行随机或增量初始化; 大模型预训练:结合语言模型与图文匹配任务,对“古籍场景+汉藏双语”进行微调或增量训练; 有监督微调:在模型中添加翻译任务头,对藏文与汉文进行互译或双语对齐,以解决同一实体在不同语言下的映射问题,为提高跨语言翻译与对齐的准确度,引入如下损失函数: 其中,代表汉-藏翻译的交叉熵损失,可为跨语言向量对齐损失,而λ1与λ2用于平衡翻译与对齐任务的相对权重; 针对低资源语言数据匮乏的问题,将真实文字识别语料与自动合成的藏文数据结合,以提升模型覆盖度,其损失函数如下所示: 其中,表示真实的低资源藏文OCR语料集,表示自动合成的藏文数据集,为训练损失,参数β∈[0,1]用于在实际训练中平衡真实数据与合成数据的占比。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国社会科学院民族学与人类学研究所,其通讯地址为:100080 北京市海淀区中关村南大街27号6号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。