上海交通大学陈逸航获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海交通大学申请的专利基于上下文关系且情景可选的英语单选题生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115878779B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111135412.2,技术领域涉及:G06F16/335;该发明授权基于上下文关系且情景可选的英语单选题生成方法是由陈逸航;李国强设计研发完成,并于2021-09-27向国家知识产权局提交的专利申请。
本基于上下文关系且情景可选的英语单选题生成方法在说明书摘要公布了:一种基于上下文关系且情景可选的英语单选题生成方法,通过从数据集提取出后续用来判断难易程度和词汇量的数据基础,然后从语料库筛选出符合词汇量和难易程度的针对预设语法的句子;再对筛选出的满足词汇量和难易程度的特定语法点的句子及其问题空缺词生成合适的备选项。本发明能够通过给定的具体特定英语情景的语料生成若干符合该情景的英语单选题,能够应用在具体英语教学过程中的试题生成、机器人的学习过程中的问题生成、问答机器人的问题生成等情景,可以减少上述情景下的重复劳动。
本发明授权基于上下文关系且情景可选的英语单选题生成方法在权利要求书中公布了:1.一种基于上下文关系且情景可选的英语单选题生成方法,其特征在于,具体包括: 步骤1数据集预处理,从数据集提取出后续用来判断句子难易程度和词汇量的数据基础,具体包括: 1.1对小学课本,统计一至五年级的单词表作为词汇集合W1; 1.2由于单词表中并未包含所有小学五年级需要认识的单词,从Brown、BNC、COCA三个语料库中根据词频来获得扩充后的词汇集合W2;如小学五年级的要求词汇量为1500,对三个语料库分别统计词频前1500的单词,将其中至少出现过两次的单词取出为词汇集合W2; 1.3小学五年级这一情景的词汇量集合W=W1∪W2; 1.4统计小学五年级课本中的句子中的六个难度维度信息的平均值用于后续判断句子的难易程度,得到其特征向量Y为Y=[Y1,Y2,Y3,Y4,Y5,Y6]; 步骤2获取问题句子备选集合:对于语料库D中的大量句子,筛选出符合词汇量和难易程度的针对预设语法的句子,具体包括: 2.1统计句子的句子长度L和句子中分词后单词在要求词汇表W中的个数num,认为threshold,threshold≦1的句子为符合需求词汇量的句子,threshold为自定义的阈值; 2.2根据小学五年级课本中的句子中的六个难度维度信息的平均值统计句子的难度维度:对一特定句子的难度维度写作特征向量X=[X1,X2,X3,X4,X5,X6],对所有句子的特征向量X和Y进行z-score标准化,具体为:z=,其中:x为个体的观测值,μ为总体数据的均值,σ为总体数据的标准差,得到的结果均值为0,标准差为1; 2.3计算特征向量间的欧氏距离作为句子难易程度相似度的判断标准,具体为:DistanceX,Y=,将所有句子根据Distance增序排序,取前Top位的句子为符合难易程度的句子,其中:X为句子难度系数,Y为特定场景的难度系数;Top的值根据情况自定义; 2.4根据具体语法点用正则表达式从之前步骤筛选出的句子中筛选出符合该特定语法的句子S和问题空缺词blank; 步骤3问题备选项的生成:对于一句筛选好的满足词汇量和难易程度的特定语法点的句子S和问题空缺词blank,生成合适的备选项,具体包括: 3.1使用语料库D训练word2vec模型中的skip-gram模型w2v;使用训练完成的w2v模型可以查找出在训练语料库中与一个单词最相近的若干个单词; 3.2介词类语法点的情况;介词本身的特性与其最为相关的单词往往是上下文的单词;使用w2v查找和blank的前后单词pre和next最为相近,词性相同且单词原型不相同的单词pre_sim和next_sim; 3.3由于单项选择本身的特性,备选项是词性相同的单词,也就是blank为介词时答案备选项也为介词;本方法从语料库D中统计查找pre_sim和next_sim的上下文中出现次数最多的select个介词集合B; 3.4介词类以外语法点的情况;与空缺词blank最为相关的单词可能并不是前后单词;对句子进行依存语法分析,查找blank依赖的单词集合dep和依赖blank的单词集合deped; 3.5使用w2v查找dep和deped相近的单词集合dep_sim和单词集合deped_sim; 3.6同上介词以外情况备选项答案也多为词性相同的单词;本方法从语料库中统计查找与dep_sim和deped_sim存在依存关系的出现次数最多的词性相同的select个单词集合B; 3.7生成的备选项集合B可能有错误的备选项,也就是带回原句依然成立的备选项,故需要将备选项和blank的上下文,即blank是介词的情况或blank的依存单词集合,blank是介词以外情况重新代入D中检索,如果存在有满足上下文或依存关系的情况,将该备选项从备选项集合B中去除; 3.8计算备选项的评分标准,具体包括:相似度sim:备选项与blank在w2v下的相似程度;Sim的值越大表示越相似,备选项越难;编辑距离Edi:备选项经过Edi步插入、删除、替换后可以转换成blank;Edi越小表示越容易转换,备选项越难;出现频次Fre:备选项在语料库D中查找上下文或依存关系时的出现次数;Fre越大表示越常出现,备选项越难;词频排名Pos:备选项在语料库D中的词频排名;Pos更大表示该词更生僻,备选项更难;语句困惑度Per:备选项代入原句后计算的困惑度;Per越小表示越符合正常语言,备选项越难;是否在词表中In:备选项是否在要求词汇表W中;在则为1,不在则为0;不在词表的备选项难; 3.9对评分标准,都进行z-score标准化,Edi、In、Per取相反数则所有指标均为越大代表备选项越难;将所有评分累加,评分越高的代表备选项综合难度越高;对评分标准In,严格要求备选项需要在词汇表中的情况,In为0的备选项不列入最终候选项;根据具体需求用备选项评分标准选择最后合适的备选项;如最难的情况则选择评分最高的,简单的情况选择评分较低的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励