知识图谱之所以能够组织知识不是因为它只是“画了一张图”而是因为它把现实世界中的对象、对象之间的联系以及对象本身的特征分别用较清楚的方式表示出来。在知识图谱中这三类最基本的构成单位就是实体Entity、关系Relation、属性Attribute。理解这三者等于抓住了知识图谱最基础的表达框架。一、为什么知识图谱要从三大要素讲起现实世界中的知识非常复杂但如果从最基本层面观察大多数知识都可以归结为三类内容1有哪些对象2这些对象之间有什么联系3这些对象各自具有什么特征。知识图谱正是围绕这三个问题组织起来的。如果没有对象图谱就无从描述如果没有关系图谱就只是分散的节点如果没有属性图谱中的对象就会缺乏具体特征。在知识图谱语境中这里的“对象”通常主要落实为实体。因此实体、关系、属性并不是知识图谱中的附加部分而是它最基本的构成要素。二、什么是实体实体Entity是知识图谱中的基本对象单位用来表示现实世界或概念世界中能够被识别、区分和描述的对象。它可以是看得见、摸得着的事物也可以是抽象对象。例如苹果公司黄山梵高《星夜》湖南师范大学经济学爱情这些都可以作为实体。由此可见实体并不局限于“物理物体”凡是能够在知识图谱中作为独立对象加以识别和描述的内容都可以作为实体。当然某个内容是否建成实体还取决于具体建模目标与语义角色。实体的基本特点有三点。1、可区分实体必须能够与其他对象区分开来。如果一个对象无法被识别和区分就很难在图谱中稳定存在。2、可描述实体通常带有名称、类型以及若干属性信息。例如“苹果公司”可以有成立日期、公司简称、总部所在地等描述。3、可关联实体不仅自身存在还会与其他实体建立关系。例如“梵高”可以与“《星夜》”“后印象派”“荷兰”等实体建立联系。因此实体是知识图谱中的“点”也是知识组织的起点。三、什么是关系关系Relation是实体之间的联系。如果说实体回答的是“有哪些对象”那么关系回答的就是“这些对象之间怎样关联”。例如梵高 — 创作 — 《星夜》北京大学 — 位于 — 北京莫奈 — 属于 — 印象派《星夜》 — 收藏于 — 纽约现代艺术博物馆这些例子中“创作”“位于”“属于”“收藏于”都是关系。关系之所以重要是因为知识图谱并不只是记录对象列表而是要把对象组织成网络。实体之间一旦通过关系连接起来图谱就不再是零散点集而成为可查询、可关联、可推理的结构。关系不仅是连接两个实体的线还需要用明确的语义名称来规定“是什么联系”。从语义角度看关系至少有以下作用1、表示对象之间的联系这是关系最直接的功能。2、丰富图谱的语义层次不同关系反映不同语义如因果、空间、时间、从属、参与等。3、支撑高级应用搜索、问答、推荐、关联分析等任务往往都依赖对象之间的关系结构。因此没有关系就没有真正意义上的知识图谱。四、什么是属性属性Attribute是附加在实体上的信息用于描述实体本身的特征。如果关系强调“实体与实体之间”那么属性强调“实体自身怎么样”。例如对于实体“苹果公司”属性可能包括成立日期公司简称注册资本对于实体“黄山”属性可能包括地理位置海拔所属省份对于实体“人物”属性可能包括年龄国籍职业这说明属性使实体更具体、更可区分也更适合检索和分析。在实际建模中有些内容也可能根据需要进一步建成独立实体并通过关系连接因此属性与关系的划分有时会受到建模粒度影响。常见属性大致可以分为几类1、描述性属性如名称、定义、外观、类别说明等。2、数量性属性如价格、年龄、尺寸、人口等。3、时间性属性如出生日期、创作时间、有效期等。4、空间性属性如坐标、位置、地理边界等。因此属性不是对象之间的联系而是对象自身的特征表达。五、实体、关系、属性三者之间有什么区别这三者虽然都属于知识图谱的基本要素但承担的作用不同。1、实体表示“对象”它回答“是什么”。2、关系表示“联系”它回答“对象之间怎样关联”。3、属性表示“特征”它回答“对象本身有什么特点”。可以用下面的简单示意来理解在这个示意中“梵高”“《星夜》”是实体“创作”是关系“国籍”“创作时间”是属性“荷兰”“1889”是相应的属性值。从这里可以清楚看到实体是知识图谱中的节点关系通常体现在节点之间的连接属性则通常附着在某个实体上用于描述其特征。六、为什么这三者最容易被混淆初学者在学习知识图谱时最常见的问题就是把关系和属性混淆把实体和属性值混淆或者把所有内容都当成“节点”。1、关系与属性的混淆例如“国籍”到底是关系还是属性这取决于具体建模方式。如果“荷兰”被视为一个独立对象那么“国籍”可以建成关系如果只是把“荷兰”作为字符串值记录那么“国籍”更接近属性。因此关系和属性并不是永远完全分离而是与建模粒度有关。但总体上说如果某个内容要作为独立对象参与更多联系它更适合建成实体与之相连的通常是关系。2、实体与属性值的混淆例如“1889”通常只是一个属性值而不是独立实体但如果某个年份在系统中要参与更多语义关系也可能进一步被实体化。3、实体与概念层对象的混淆有些对象是具体实体如“北京大学”有些是概念层对象如“大学”。在知识图谱中二者都可以出现但它们所处层级不同。因此这三者的区分并不只是词面判断更取决于某一内容在图谱中承担什么语义角色。七、为什么三大要素决定了知识图谱的表达能力知识图谱的表达能力首先就体现在它能否把实体、关系、属性处理清楚。1、实体决定图谱中“有什么”如果实体识别不清图谱的基本对象就会混乱。2、关系决定图谱中“怎样连”如果关系设计不清图谱就难以支撑查询、关联和推理。3、属性决定图谱中“描述得够不够细”如果缺少属性图谱中的对象会过于空泛难以区分和使用。因此一个知识图谱是否清楚、可用很大程度上取决于实体是否识别准确关系是否定义明确属性是否组织合理。这说明实体、关系、属性不是彼此分离的三个名词而是知识图谱最基础的表达框架。只有三者配合起来图谱才能真正承担知识表示与知识组织的任务。 小结实体表示对象关系表示对象之间的联系属性表示对象本身的特征。三者共同构成知识图谱最基本的表达框架是理解建模、查询和推理的前提。“点赞有美意赞赏是鼓励”