基于VSM的命名实体识别、歧义消解和指代消解-白红宇

基于VSM的命名实体识别、歧义消解和指代消解

阅读量：3917 次

发布时间：2019-05-23

本文共 2556 字，大约阅读时间需要 8 分钟。

前面讲述过两篇知识图谱相关的文章，这篇文章主要讲解基于向量空间模型(Vector Space Model)的相关应用，包括命名实体识别、实体消歧和跨文本指代消解；其最终目的是想通过它应用到知识图谱构建过程中，即实体对齐和属性对齐。

搜狗知立方框架图

如下图所示是搜狗知立方的整体框架图。其中知识图谱建立主要包括五个部分：

本体构建（实体挖掘、属性名称挖掘）、实例构建（纯文本属性、实体抽取、半结构化数据抽取）、异构数据整合（实体对齐、属性值决策、关系建立）、实体重要度计算、推荐完善数据。

实体对齐和属性值决策

实体对齐主要是从三大在线百科（维基百度互动）、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合的过程（前文对实体消歧和实体对齐有过介绍）。

如下图所示：分别从“hudong.com”、“sohu.com”、“tvmao.com”、“百度百科”中获取四个“张艺谋”的InfoBox消息盒信息，每个网页或文本分别代表一个实体，此时需要整合成一个更加精确和丰富的实体，这就叫做实体对齐。

其中如“出生日期”，又叫“出生年月”、“生日”，这些属性都需要进行整合，叫做属性对齐；相应的“1951年11月14日”、“1951-11-14”或“1951/11/14”又叫做属性值对齐或属性值决策。

其中属性值决策主要考虑两个因素：一个是选来源多的，另一个是选信息准确的。

目前我先通过从维基百科（中文目前被屏蔽）、百度百科和互动百科中获取消息盒InfoBox的信息，如下图所示：它是关于北京的介绍，相当于一个实体，其中右边方框部分就是所谓的消息盒，当然百度百科中上部也存在。

爬取InfoBox介绍

在下面这篇文章中我介绍过如何通过Python+Selenium+PhantomJS爬取InfoBOx的信息。

这种方法是首先人工标注实体，再在三大在线百科中构建一个核心的实体集，然后进行迭代式丰富。个人认为类似于复旦大学的GDM实验室的知识图谱，它包括四个部分：实体和概念抽取、实体评估、实体消解和关系抽取。

二. VSM相似度计算

在研究中文本跨文本指代消解、汉语命名实体识别和实体歧义消解过程中，可能都会用到基于VSM的相似度计算，再结合聚类方法完成。

基本概念

实体消歧：一个命名实体的指称项可以对应多个实体概念，消歧需要把具有歧义的指称项映射到它实际所指实体的概念上。经典例子如下所示：根据上下文的信息，将“苹果”和“乔布斯”进行命名实体消歧确定为“苹果(公司)”。

跨文本指代消解：指将分布在多个不同文章中且指向同一名称实体的所有代词聚合成一个指代链。一般在指代过程中有两种现象，即“多名”现象和“重名”现象。解决多名现象的方法即“多名聚合”，解决重名现象的方法即“重名消歧”，这正是跨文本指代消解亟待解决的两个任务。指代这种常见的语言现象广泛存在于自然语言中，通常分为两种回指和同指。

其中主流方法包括：基于规则的方法、基于统计的方法、基于分类的方法、利用上下文信息和网络挖掘技术自动判别代词的语义类别的方法等。