成都中医药大学杨静获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都中医药大学申请的专利中医古籍异体字字典构建及文本对齐方法、系统和介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120744144B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511248171.0,技术领域涉及:G06F16/36;该发明授权中医古籍异体字字典构建及文本对齐方法、系统和介质是由杨静;徐鑫垚;温川飙;张婷婷;周帅;付勇智设计研发完成,并于2025-09-03向国家知识产权局提交的专利申请。
本中医古籍异体字字典构建及文本对齐方法、系统和介质在说明书摘要公布了:本发明属于针对中医古籍的自然语言处理技术领域,具体涉及一种中医古籍异体字字典构建及文本对齐方法、系统和介质。本发明结合异体字的识别和异体字字典构建,实现了中医古籍的文本对齐方法。具体而言,本发明采用深度学习和自然语言处理技术,自动提取异体字特征,显著提高覆盖范围和识别准确性;通过动态规划、语义相似度计算和知识图谱融合,综合考虑多模态特征,显著提升对齐精度。同时,模型能够动态适应新文本和异体字,具有更强的扩展性和适应性;且利用知识图谱优化对齐结果,提高了文本处理的准确性和效率。最终生成的结果是对齐后的文本序列,其中异体字被正确识别并映射到标准字。本发明在中医古籍的数字化工作中具有很好的应用前景。
本发明授权中医古籍异体字字典构建及文本对齐方法、系统和介质在权利要求书中公布了:1.一种中医古籍异体字字典构建与文本对齐结合的方法,其特征在于,用于不同版本的中医古籍的文本对齐,包括如下步骤: 步骤A,按照中医古籍异体字字典构建方法构建异体字字典,得到初步对齐后的文本序列; 所述中医古籍异体字字典构建方法包括如下步骤: 步骤1,输入原始中医古籍文本数据,进行预处理,得到字符序列和字符图像; 步骤2,采用卷积神经网络模型从字符图像中提取字符的形态特征;采用循环神经网络捕捉字符序列的上下文信息;所述卷积神经网络模型包括输入层、卷积层、池化层和输出层;其中,所述输入层的输入大小为32×32像素,所述卷积层的卷积核为3×3,所述池化层的池化窗口大小为2×2;所述循环神经网络为LSTM模型; 步骤3,基于所述形态特征和上下文信息,识别异体字及其对应的标准字; 步骤4,将识别得到的异体字及其对应的标准字构建为异体字字典;对于异体字字典中已有的异体字,如果发现对应的标准字有更准确的匹配,所述异体字字典通过更新算法进行更新; 所述更新算法包括如下步骤: 步骤a,相似度计算与匹配:遍历异体字字典中的标准字,计算其与新识别异体字的特征向量相似度;对于每个新识别异体字,选择相似度最高的标准字作为最优匹配;如果最优匹配的相似度高于设定阈值,则认为找到更准确匹配;否则保留原字典匹配关系; 步骤b,字典更新:检查字典中是否已存在该新识别异体字;若不存在,将新识别异体字及其最优匹配的标准字添加到异体字字典;若已存在,则比较新匹配标准字与原标准字的相似度,若新匹配相似度更高则更新字典,否则保留原匹配; 将完成异体字识别和动态字典更新后得到的文本序列作为初步对齐的文本序列; 步骤B,通过编辑距离算法进行文本对齐,得到优化的对齐结果; 使用编辑距离算法进行对齐: 其中,为两个文本序列从位置i到位置j的编辑距离; 其中,Costxi,yj为字符xi和yj的匹配代价;匹配代价表示两个字符之间的相似度; 步骤C,通过语义相似度计算进行文本对齐,得到优化的对齐结果; 在计算字符之间的匹配代价时,考虑其语义相似度,当两个字符的语义向量较为相似时,降低其匹配代价; 步骤D,构建中医术语知识图谱,利用中医术语知识图谱中的语义关联优化对齐结果; 在计算字符之间的匹配代价时,考虑其在知识图谱中的语义关联权重,当两个字符在知识图谱中具有较强的语义关联时,降低其匹配代价。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都中医药大学,其通讯地址为:610000 四川省成都市金牛区十二桥路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励