恭喜腾讯科技(深圳)有限公司张雨春获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜腾讯科技(深圳)有限公司申请的专利词嵌入表示学习方法及装置、文本召回方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112100332B 。
龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010961808.1,技术领域涉及:G06F16/334;该发明授权词嵌入表示学习方法及装置、文本召回方法及装置是由张雨春;翁泽峰;翟彬旭;张东于;范云霓设计研发完成,并于2020-09-14向国家知识产权局提交的专利申请。
本词嵌入表示学习方法及装置、文本召回方法及装置在说明书摘要公布了:本公开提供了一种词嵌入表示学习方法及装置、文本召回方法及装置,涉及人工智能领域。词嵌入表示学习方法包括:获取文本语料,对所述文本语料进行分词处理,并基于得到的分词和所述分词对应的发音信息构建图结构;以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列;根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表,并基于所述词嵌入查找表确定与所述文本语料对应的词嵌入表示。本公开能够根据分词和发音信息构建图,并基于图结构训练词嵌入,使得词形学接近的词语在词嵌入空间中具有相近的距离,避免了输入错误导致的召回文本错误的问题,提高了召回效率和召回质量,进而提升了用户体验。
本发明授权词嵌入表示学习方法及装置、文本召回方法及装置在权利要求书中公布了:1.一种词嵌入表示学习方法,其特征在于,包括: 获取文本语料,对所述文本语料进行分词处理;所述文本语料为中文文本,发音信息为所述中文文本经分词处理所得到的各分词中每个字对应的拼音; 以与所述中文文本对应的分词和所述拼音为节点,以所述分词、所述分词中的单字以及所述单字对应的拼音之间的关系为边,根据所述节点和所述边构建无向无环图; 按照各个节点对应的边的数量,将所述无向无环图中各个节点划分为高度节点和低度节点; 采用对边切分方式对所述无向无环图中的低度节点进行切分,并采用点切分方式对所述无向无环图中的高度节点进行切分,得到所述无向无环图的为多个子图,并对所述多个子图进行分别存储; 以所述无向无环图中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列; 根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表;在词嵌入表示模型的每轮训练中,所述文本语料中的高频词语的处理结果是对多个子任务的处理结果进行整合得到的,所述多个子任务是对所述高频词语的处理任务进行划分得到的,每个子任务交由不同的机器同时执行; 获取基于所述无向无环图构建的词表,并根据所述词表获取所述文本语料中的分词所对应的编码; 根据所述编码在所述词嵌入查找表中确定与所述分词对应的词嵌入; 根据所有所述分词对应的词嵌入确定与所述文本语料对应的词嵌入表示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。