华南理工大学苏锦钿获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利面向中文拼音拼写纠错的自监督预训练方法、系统及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115563959B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211156374.3,技术领域涉及:G06F40/232;该发明授权面向中文拼音拼写纠错的自监督预训练方法、系统及介质是由苏锦钿;曹庭毓;顾伟正;吴清培;高浩然;刘亚菲;洪奕槐;郑欣若设计研发完成,并于2022-09-22向国家知识产权局提交的专利申请。
本面向中文拼音拼写纠错的自监督预训练方法、系统及介质在说明书摘要公布了:本发明公开了一种面向中文拼音拼写纠错的自监督预训练方法、系统及介质,其中方法包括:获取中文文本序列,将中文文本序列转换为输入句子X;从输入句子X中获取需要利用拼音混淆集进行替换的字的列表,并记为PYListX;对于PYListX中的每一个字x,获取该字x的拼音,根据拼音获取同音字列表,根据同音字列表将字x替换为新的字;在处理完PYListX中的所有字后,获得新的输入句子PYInputX,根据输入句子PYInputX获取BERT模型的输入InputX;将InputX作为BERT模型的输入并进行训练后,通过BERT模型中的掩码语言模型预测InputX中各个字的正确值。本发明对拼音混淆集后进行替换,并将BERT中的MLM任务转换为对被掩码字的正确值预测,增强了BERT的纠错能力,可广泛应用于自然语言处理领域。
本发明授权面向中文拼音拼写纠错的自监督预训练方法、系统及介质在权利要求书中公布了:1.一种面向中文拼音拼写纠错的自监督预训练方法,其特征在于,包括以下步骤: 获取中文文本序列,根据预设标志将中文文本序列转换为满足BERT模型要求的输入句子X; 从输入句子X中获取需要利用拼音混淆集进行替换的字的列表,并记为PYListX; 对于PYListX中的每一个字x,获取该字x的拼音,根据拼音获取同音字列表,根据同音字列表将字x替换为新的字; 在处理完PYListX中的所有字后,获得新的输入句子PYInputX,根据输入句子PYInputX获取BERT模型的输入InputX; 将InputX作为BERT模型的输入并进行训练后,通过BERT模型中的掩码语言模型预测InputX中各个字的正确值; 所述从输入句子X中获取需要利用拼音混淆集进行替换的字的列表,并记为PYListX,包括: 对于输入句子X,采用BERT的掩码策略选择相应的被掩码字,即选择输入句子X中15%的字进行替换;其中被选中的字有80%概率被替换成该字在拼音混淆集中的字,10%的概率被随机替换成词汇表中的某个字,10%的概率保持不变; 为了便于表示,将输入句子X中所有被选中为需要利用拼音混淆集进行替换的字的列表记为PYListX; 所述对于PYListX中的每一个字x,获取该字x的拼音,根据拼音获取同音字列表,根据同音字列表将字x替换为新的字,包括: 对于PYListX中的每一个字x执行以下步骤: 利用Python中的汉字转拼音工具pypinyin获取该字的拼音及声调; 根据该字的拼音,利用Python中的拼音转汉字工具Pinyin2Hanzi获得该拼音下的同音字列表;若列表不为空,则得到该字的同音同调及同音不同调列表SamePYListx;若列表为空,则列表SamePYListx设置为空; 若该字的拼音结尾为g,则去掉g,并利用Python中的拼音转汉字工具获得该字的近音列表DiffPYListx; 根据列表SamePYListx和列表DiffPYListx选择替换字;若列表SamePYListx或列表DiffPYListx为空,则保留原来的字不变; 所述在处理完PYListX中的所有字后,获得新的输入句子PYInputX,根据输入句子PYInputX获取BERT模型的输入InputX,包括: 将PYInputX中的各个字转成词汇表中的序号,合并位置词向量、词向量信息及分段信息后作为BERT层的输入句子;同时将输入句子X中无需进行替换的字及补齐标志[PAD]的序号置为-100,获得BERT模型的输入InputX。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510641 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。