山东产业技术研究院智能计算研究院陈益强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东产业技术研究院智能计算研究院申请的专利基于伪正则表达式意图匹配方法及智能问答系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113610110B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110764254.0,技术领域涉及:G06F16/3329;该发明授权基于伪正则表达式意图匹配方法及智能问答系统是由陈益强;符建辉;杨晓东设计研发完成,并于2021-07-06向国家知识产权局提交的专利申请。
本基于伪正则表达式意图匹配方法及智能问答系统在说明书摘要公布了:本公开提出了基于伪正则表达式意图匹配方法及系统,包括:针对用户咨询训练集进行训练生成为伪正则表达式;接收用户咨询信息,对用户的咨询信息与伪正则表达式进行意图匹配识别,获得匹配的伪正则表达式,从而获得用户意图。本申请方案从规则编写到规则使用基本实现自动化,无需人工构建编写规则,节省人力,同时人基本上接触不到规则,便于维护。
本发明授权基于伪正则表达式意图匹配方法及智能问答系统在权利要求书中公布了:1.基于伪正则表达式意图匹配方法,其特征是,包括: 针对用户咨询训练集进行训练生成伪正则表达式;在训练时,训练集中的每个用户咨询通过分词与词集合标准名查找转换为词集合标准名和未识别字符序列,然后序列通过未登录词交互识别转换为词集合标准名集合序列,然后通过伪正则表达式生成伪正则表达式集合并存入数据库; 分词与词集合标准名查找的过程为: 首先建立同义词词库,每一组同义词词库选择一个最具代表性的词语作为词集合标准名; 基于词库对用户咨询进行分词,采用逆向最大分词逆向最大匹配的分词模型; 获得分词之后通过词语查找词集合标准名,从而获取到词集合标准名组成的有序词串; 词集合标准名词串用于文法生成或者伪正则表达式匹配过程; 分词的过程中,给未登录词建立一个单独的词集合,并用未登录词的名称作为词集合标准名;通过词语相似性计算模型获得未登录词语与库中所有词语的相似性,推荐与其最相似的topk词语所在的词集合作为未登录词所属的候选同义词集合;其中,所述词语相似性计算模型采用bert获得词语的向量表示,通过余弦相似度计算欧式距离来判断词语的相似性; 在分词和未登录词识别之后,进行伪正则表达式规则的生成,规则的生成过程如下: 根据分词结果找到每个词语对应的的此标准集合名,如果一个词语对应多个词语集合标准名,标准名之间用“|”隔开; 词集合标准名之间用“.*”连接; 查找可选词集合标准名称集合库,将可选的词集合标准名用“[]”括起来,如果一个用竖线隔开的词集合标准名串只要有一个词集合标准名存在于可选词集合标准名称集合库,那么整个词集合标准名串用“[]”整体括起来; 加上伪正则表达式规则的开始标识符“^”和结束标识符“$”; 伪正则表达式索引构建:建立了词集合标准名到伪正则表达式的倒排索引结构; 接收用户咨询信息,对用户的咨询信息与伪正则表达式进行意图匹配识别,获得匹配的伪正则表达式,从而获得用户意图。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东产业技术研究院智能计算研究院,其通讯地址为:250000 山东省济南市高新区港兴三路未来创业广场3号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。