信息抽取:从原始数据到知识单元
现实中的数据大多以数据库记录、网页信息框、自然语言文本、表格、图片说明等形式存在它们本身并不是已经整理好的知识图谱。要把这些原始数据转化为图谱中的实体、关系和属性首先要经过信息抽取。信息抽取的任务不是简单复制数据而是从大量信息源中识别出真正有用的事实信息并将其转化为结构化知识单元。对于知识图谱而言这一步为后续知识融合、知识加工和持续更新奠定基础。一、什么是信息抽取信息抽取Information Extraction是指从各类数据中自动抽取概念、实体、事件、属性及其关系并将其转化为结构化信息的过程。从知识图谱的角度看信息抽取主要回答三个问题1数据中有哪些对象2这些对象之间有什么联系3这些对象还具有什么属性信息。因此信息抽取的目标不是保留原始表达而是把原始表达转化为知识图谱能够接收的知识单元。二、信息抽取面向哪些数据知识图谱中的数据来源通常分为结构化数据、半结构化数据和非结构化数据三类不同数据类型决定了信息抽取的方法重点和实现难度。1、结构化数据结构化数据Structured Data具有较稳定的字段和表结构通常可以使用关系型数据库进行表示和存储。这类数据在形式上表现为二维表其存储与排列较有规律因此更容易直接提取实体、属性和部分关系。2、半结构化数据半结构化数据Semi-structured Data不完全符合关系型数据库的表结构但通常带有标记、层级或字段提示例如网页信息框、XML、JSON、带标签的网页片段等。它虽然不像结构化数据那样规则却比纯文本更容易解析。3、非结构化数据非结构化数据Unstructured Data没有固定结构常见形式包括自然语言文本、文档、图片、音视频等。这类数据最难直接利用通常需要借助自然语言处理、文本挖掘等方法才能把其中隐藏的知识识别出来。下面给出了三类数据与信息抽取的关系示意图由此可见信息抽取并不是只面向文本也不是只处理数据库而是知识图谱连接多种数据来源的入口。三、信息抽取的三项核心任务面向知识图谱的信息抽取最核心的任务通常包括实体抽取、关系抽取和属性抽取。为保持示例连续下面统一使用同一句艺术领域文本法国印象派画家克劳德·莫奈Claude Monet于 1872 年创作了著名的油画《日出·印象》Impression, Sunrise这幅作品现收藏于法国勒阿弗尔美术馆。1、实体抽取先识别“图谱中有什么对象”实体抽取Entity Extraction又称命名实体识别Named Entity RecognitionNER是信息抽取中最基础、也最关键的一步。它的任务是识别文本中哪些片段构成实体并进一步判断这些实体属于什么类别。实体抽取通常包括两个步骤1实体边界识别判断哪些词构成一个完整实体2实体分类将实体归入预先定义的类别。在上面的句子中可以识别出如下实体画家克劳德·莫奈绘画作品《日出·印象》创作时间1872 年美术馆法国勒阿弗尔美术馆这说明实体抽取并不是只找专有名词而是要找出知识图谱中真正值得建模的对象。在艺术领域中常见实体除了人物、作品、机构、地点、时间还可能包括风格与流派、展览、材质等。也正因为如此领域知识会直接影响实体抽取的效果。2、关系抽取再识别“对象之间有什么联系”关系抽取Relation Extraction的任务就是识别已经抽取出的实体之间存在什么语义关系并把这种关系表示出来。在上面的例子中系统可以进一步识别出克劳德·莫奈创作《日出·印象》《日出·印象》收藏于法国勒阿弗尔美术馆由此可见关系抽取的作用是把前一步得到的实体连接成网络结构。关系抽取通常有两个前提1已经识别出相关实体2已经预先规定了关系类型或者有方法从语料中发现关系类型。如果没有关系抽取图谱中就只有“画家、作品、美术馆”这些对象有了关系抽取图谱才真正形成“画家创作作品”“作品收藏于机构”这样的知识结构。从任务范围看关系抽取还可以进一步分为三类面向特定领域、面向开放领域和联合推理。1面向特定领域面向特定领域Closed Domain的关系抽取通常预先规定关系类型例如“创作”“收藏于”“出生于”“就读于”等。它更适合领域边界较清楚、关系集合较稳定的场景如艺术、医学、金融、法律等专题知识图谱。在艺术领域中如果系统已经知道常见关系主要包括“创作”“收藏于”“属于流派”“举办于”等那么就可以围绕这些预设关系进行抽取。2面向开放领域面向开放领域Open Domain的关系抽取不依赖事先完全固定的关系类别而是更强调从大规模语料中直接发现关系表达。它更适合开放知识环境例如百科、网页和互联网文本。这类方法的重点不再只是“在已知关系类型中做判断”而是尽可能从真实语料中发现“对象之间到底存在怎样的联系”。3联合推理联合推理Joint Inference强调把实体识别、关系判断以及相关约束放在一起统一考虑以提高整体抽取效果。也就是说它不把“先识别实体、再抽取关系”完全割裂而是尽量让多个环节相互支持、相互约束。例如当系统已经较可靠地判断“克劳德·莫奈”是画家、“《日出·印象》”是作品时就更容易进一步判断它们之间存在“创作”关系反过来若关系判断较明确也能帮助修正实体类别识别中的偏差。可以用下面的示意图概括这三类关系抽取的范围这种分类说明关系抽取不仅是“从句子里找关系”还会随着任务目标和应用场景的不同而采用不同范围和策略。3、属性抽取补充“对象具有什么细节”关系抽取主要关注“对象—对象”之间的连接而属性抽取Attribute Extraction更多处理“对象—属性值”之间的对应关系。它的任务是识别一个实体带有哪些属性以及这些属性的值分别是什么。在同一个例子中除了“创作”和“收藏于”这样的关系外还可以抽取《日出·印象》创作时间1872 年这条知识的特点是它更像对作品本身的刻画而不是两个实体之间的语义连接。属性抽取通常可以看作一种特殊的关系抽取但它往往更细碎难点也更集中。因为系统不仅要识别属性名还要识别属性值而属性值的表达形式并不统一有时是时间有时是数字有时又是短语性描述。四、三项任务之间是什么关系实体抽取、关系抽取和属性抽取并不是彼此孤立的三项工作而是有明显先后关系的。先有实体抽取系统才知道文本中有哪些对象再有关系抽取系统才知道这些对象之间怎样连接最后通过属性抽取系统才能补充对象的细节信息。可以把这一过程概括为仍以上面的句子为例经过三项任务之后可以得到较完整的知识单元实体克劳德·莫奈、《日出·印象》、法国勒阿弗尔美术馆、1872 年关系克劳德·莫奈创作《日出·印象》、《日出·印象》收藏于法国勒阿弗尔美术馆属性《日出·印象》创作时间1872 年这说明信息抽取真正完成的不是“保存原句”而是把原句转化为知识图谱可以吸收的知识表达。五、信息抽取的主要方法从实现思路看信息抽取通常可以从两类路径展开一类是基于知识发现Knowledge Discovery in DatabasesKDD和数据挖掘Data Mining的方法主要面向结构化数据和半结构化数据另一类是基于自然语言处理Natural Language ProcessingNLP和文本挖掘Text Mining的方法主要面向非结构化数据尤其是自然语言文本。如果从技术发展脉络来看信息抽取的方法大体经历了三个阶段规则驱动、统计学习和深度学习。1、规则驱动规则驱动方法主要出现在信息抽取发展的早期阶段。它通常依赖人工编写规则、模板、正则表达式和领域词典通过预定义的模式识别文本中的实体、关系和属性。这种方法的优点是实现简单、可解释性强在格式固定或语言模式较明确的文本中往往效果较好例如新闻报道、艺术作品目录、学术条目等。但它的局限也较明显规则体系难以覆盖语言的全部变体对新出现的实体和新表达方式适应能力较弱扩展成本也较高。2、统计学习随着机器学习技术的发展基于统计学习的方法逐渐成为信息抽取的重要路线。这一阶段的代表性模型之一是条件随机场Conditional Random FieldCRF。它通过构建序列标注框架把词形、词性、上下文窗口等特征转化为可学习信号从而识别文本中的实体边界和类别。与规则驱动相比统计学习方法减少了对人工规则的依赖具有一定泛化能力。但它仍然较依赖特征工程模型效果在很大程度上取决于特征设计质量对复杂上下文和长距离依赖的处理能力也有限。3、深度学习近年来信息抽取进一步发展到深度学习阶段。深度学习方法通过自动学习字符区分、上下文关联和语义表示显著提升了实体识别和关系抽取能力。循环神经网络、卷积神经网络以及基于注意力机制的序列模型都曾广泛用于这一阶段的信息抽取任务。随着预训练语言模型Pre-trained Language Model的提出信息抽取又进一步向上下文感知和高语义理解方向发展。预训练模型通过大规模语料学习到较丰富的语言知识能够更好地识别变体形式、复杂句式和长距离依赖中的知识线索。总体而言信息抽取的关键技术已经从依靠规则和特征的显式表达逐步演化为依靠深度语义建模的隐式表示。规则驱动适合稳定领域统计学习适合特征较可控的任务深度学习则更适合大规模、开放域和语言变化较复杂的场景。4、监督方式的进一步区分从技术发展脉络看信息抽取的方法大体经历了规则驱动、统计学习和深度学习三个阶段。若从训练数据的获得方式来看相关方法还可以进一步区分为有监督学习、弱监督学习和无监督学习。1有监督学习Supervised Learning依赖人工预先标注的大量训练语料通过学习训练集获取抽取规则2弱监督学习Weakly Supervised Learning使用预先定义的关系类型和少量种子实例减轻对大规模人工标注的依赖3无监督学习Unsupervised Learning不依赖人工标注语料而是通过聚类等方式从语料中发现实体间关系。这种区分说明信息抽取不仅可以按“规则—统计—学习”的技术路线理解也可以按“对标注数据依赖程度”来理解。六、信息抽取面临哪些典型困难信息抽取虽然是知识图谱构建的入口但并不意味着它是一项简单工作。其典型困难主要体现在以下三个方面。1、表达形式不统一同一对象、同一关系或同一属性往往会有多种不同表达方式。例如同一个人物可能同时出现中文名、外文名、简称和代词同一种关系也可能通过多种句式表达出来。这会直接增加抽取难度。2、语境依赖较强很多知识并不是看单个词就能判断出来而要依赖上下文。例如一个名称到底是不是完整实体一段描述到底表示关系还是属性常常需要结合前后语境来判断。3、领域差异明显不同领域的数据特点并不相同抽取难点也会明显变化。例如在艺术领域中作品名称格式不统一、机构名称容易被拆开、创作时间与展览时间容易混淆这些都会影响抽取效果。因此信息抽取虽然有通用方法但在实际构建知识图谱时往往仍需要结合具体领域特点进行调整和优化。七、信息抽取在知识图谱中的作用信息抽取的价值在于它把原始数据转化为知识图谱可用的知识单元。没有信息抽取图谱只能依赖人工录入而有了信息抽取图谱才可能从文本、表格、网页和数据库中持续获取新知识。但也要看到信息抽取完成后问题并没有全部解决。抽取得到的知识仍可能存在重复、歧义、冲突和不一致。例如1“莫奈”“克劳德·莫奈”“Claude Monet”可能指向同一实体2不同来源对同一作品的属性描述可能不一致3同名对象可能被错误合并。因此信息抽取只是把知识“找出来”并不等于已经把知识“整理好”。后续还必须经过知识融合才能把这些知识单元组织成较一致的知识对象。如果在更复杂的场景中系统还需要从文本中识别“发生了什么”那么信息抽取还会进一步扩展到事件抽取Event Extraction。 小结信息抽取是知识图谱构建的起点。它通过实体抽取、关系抽取和属性抽取把原始数据转化为可进入知识图谱的知识单元为后续知识融合和知识加工奠定基础。“点赞有美意赞赏是鼓励”