电子科技大学费高雷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于网页正文的人物属性提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115525760B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211180208.7,技术领域涉及:G06F16/353;该发明授权一种基于网页正文的人物属性提取方法是由费高雷;高隽逸;胡光岷设计研发完成,并于2022-09-27向国家知识产权局提交的专利申请。
本一种基于网页正文的人物属性提取方法在说明书摘要公布了:本发明公开了一种基于网页正文的人物属性提取方法,包括以下步骤:S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词;S2、根据人物属性,选择包含分类信息的词元属性;S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征;S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型。本发明在复杂网络环境中,获取感兴趣的目标人物的网页的正文,通过合理地选取和构造特征,使用最大熵算法实现了在复杂网络环境中提取人物特征的方法。
本发明授权一种基于网页正文的人物属性提取方法在权利要求书中公布了:1.一种基于网页正文的人物属性提取方法,其特征在于,包括以下步骤: S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词; S2、根据人物属性,选择包含分类信息的词元属性; S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征; S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型;最大熵算法构建的分类模型是一个条件概率分布,其中,为样本,为人物属性类别;将构建的特征函数作为分布的约束条件,以寻找满足这些约束条件的分布中,熵最大的分布;其中,特征函数用来描述词元x和类别标注y的关系,定义为: ; 特征函数反应的是词元在词元本身和上下文中满足的关系; 为了寻找不同的特征函数对于分类的增益程度,考虑特征函数在真实分布和经验分布上的一致性;对于第i个特征函数,其关于真实期望的期望值用表示为: ; 表示的真实分布; 第i个特征函数关于条件分布和经验分布的模糊期望值有如下表示: ; 指的是x的真实分布;指的是模型在得到x的输入的情况下,输出y的分布; 在人物属性提取的场景下,特征函数的真实期望和模型期望分别代表该特征函数在真实分布和经验分布上的期望值,假设这两个期望相等;则人物属性提取模型必须满足所有特征等式的约束; 为了最小化模型的熵,首先要计算出满足等式约束的条件熵,其定义如下: ; 该函数的约束条件为: ; ; M表示特征函数的个数;代表着满足所有特征函数的人物属性提取模型的熵的负值;为凸函数,根据凸优化的理论,使用拉格朗日函数将其转化为无约束优化函数求解,得到拉格朗日函数中每个约束条件对应的拉格朗日乘子;从语义的角度来看,反映的是构造的不同的特征函数对于分类的增益程度,特征函数对于分类的增益越高,其值就越大;至此,得到分布关于一组权值的如下表示形式: ; 其中,为规范化因子,它确保整个模型是一个合法的概率分布,其定义为: ; 使用IIS算法来完成模型学习的最优化;通过最小化模型,得到模型的分布函数,即完成模型在人物属性提取场景下的构建。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励