Neo4J简介

知识图谱由于其数据包含实体、属性、关系等,常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点,因此知识图谱数据的存储一般是采用图数据库(Graph Databases)。而Neo4j是其中最为常见的图数据库。

Neo4J安装

首先在 https://neo4j.com/download/ 下载Neo4J。Neo4J分为社区版和企业版,企业版在横向扩展、权限控制、运行性能、HA等方面都比社区版好,适合正式的生产环境,普通的学习和开发采用免费社区版就好。在Mac或者Linux中,安装好jdk后,直接解压下载好的Neo4J包,运行即可,不过在此推荐使用docker安装和运行:

# 下载docker镜像
docker pull neo4j    # 默认下载最新版本,如果需要特定版本,则进行指定

# 运行neo4j容器
docker run --publish=7474:7474 --publish=7687:7687 --volume=$HOME/Documents/neo4j/data:/data neo4j:latest  # 这里对数据进行挂载,以免数据丢失

Neo4J使用

Neo4J提供了一个用户友好的web界面,可以进行各项配置、写入、查询等操作,并且提供了可视化功能。

启动neo4j服务之后,打开浏览器,输入http://127.0.0.1:7474/browser/,如下图所示,界面最上方就是交互的输入框,默认账号和密码是neo4j,neo4j,第一次成功connect到Neo4j服务器之后,需要重置密码。可以在界面命令行中输入 :server change-password 来修改密码,注意server前面有个冒号(:)

如果通过neo4j的python包连接,默认的host是bolt://localhost:7687,默认的用户是neo4j,默认的密码是:neo4j。

neo4j性能对比mysql neo4j和mysql区别_neo4j

 Cypher查询语言

Cypher是Neo4J的声明式图形查询语言,允许用户不必编写图形结构的遍历代码,就可以对图形数据进行高效的查询。Cypher的设计目的类似SQL,适合于开发者以及在数据库上做点对点模式(ad-hoc)查询的专业操作人员。其具备的能力包括:

  • 创建、更新、删除节点和关系
  • 通过模式匹配来查询和修改节点和关系 - 管理索引和约束等

这个案例的节点主要包括人物和城市两类,人物和人物之间有朋友、夫妻等关系,人物和城市之间有出生地的关系。

1. 首先,我们删除数据库中以往的图,确保一个空白的环境进行操作:

MATCH (n) DETACH DELETE n

这里,MATCH匹配操作,而小括号()代表一个节点node(可理解为括号类似一个圆形),括号里面的n为标识符

2. 接着,我们创建一个人物节点:

CREATE (n:Person {name:'John'}) RETURN n

CREATE创建操作,Person标签,代表节点的类型。花括号{}代表节点的属性,属性类似Python的字典。这条语句的含义就是创建一个标签为Person的节点,该节点具有一个name属性,属性值是John。如下图所示,在Neo4J的界面上可以看到创建成功的节点。

neo4j性能对比mysql neo4j和mysql区别_删除节点_02

3. 我们继续来创建更多的人物节点,并分别命名:

CREATE (n:Person {name:'Sally'}) RETURN n
CREATE (n:Person {name:'Steve'}) RETURN n
CREATE (n:Person {name:'Mike'}) RETURN n
CREATE (n:Person {name:'Liz'}) RETURN n
CREATE (n:Person {name:'Shawn'}) RETURN n

创建好了后执行查询操作:Match (n:Person) RETURN n,得到下图所示,6个人物节点创建成功

neo4j性能对比mysql neo4j和mysql区别_neo4j_03

4. 接下来创建地区节点

# create可以没有return操作
CREATE (n:Location {city:'Miami', state:'FL'})
CREATE (n:Location {city:'Boston', state:'MA'})
CREATE (n:Location {city:'Lynn', state:'MA'})
CREATE (n:Location {city:'Portland', state:'ME'})
CREATE (n:Location {city:'San Francisco', state:'CA'})

可以看到,节点类型为Location,属性包括city和state。

执行查询命令:MATCH (n) WHERE n:Person or n:Location RETURN n; 得到下图所示,共有6个人物节点、5个地区节点,Neo4J使用不用的颜色来表示不同类型的节点。

neo4j性能对比mysql neo4j和mysql区别_neo4j_04

 5. 接下来创建关系

MATCH (a:Person {name:'Liz'}), (b:Person {name:'Mike'}) 
MERGE (a)-[:FRIENDS]->(b)

这里的方括号[]即为关系,FRIENDS为关系的类型。注意这里的箭头-->是有方向的,表示是从a到b的关系。 运行查询命令后:MATCH (a:Person {name:'Liz'}), (b:Person {name:'Mike'})  RETURN a, b,得到下图,Liz和Mike之间建立了FRIENDS关系,通过Neo4J的可视化很明显的可以看出:

neo4j性能对比mysql neo4j和mysql区别_Cypher_05

 6. 关系也可以增加属性

MATCH (a:Person {name:'Shawn'}), (b:Person {name:'Sally'}) 
MERGE (a)-[:FRIENDS {since:2001}]->(b)

在关系中,同样的使用花括号{}来增加关系的属性,也是类似Python的字典,这里给FRIENDS关系增加了since属性,属性值为2001,表示他们建立朋友关系的时间。运行下面的查询命令后:MATCH (a:Person {name:'Shawn'}), (b:Person {name:'Sally'}) return a,b,图下发现关系FRIENDS有since这个属性了。

neo4j性能对比mysql neo4j和mysql区别_ci_06

7. 接下来增加更多的关系

MATCH (a:Person {name:'Shawn'}), (b:Person {name:'John'}) MERGE (a)-[:FRIENDS {since:2012}]->(b)
MATCH (a:Person {name:'Mike'}), (b:Person {name:'Shawn'}) MERGE (a)-[:FRIENDS {since:2006}]->(b)
MATCH (a:Person {name:'Sally'}), (b:Person {name:'Steve'}) MERGE (a)-[:FRIENDS {since:2006}]->(b)
MATCH (a:Person {name:'Liz'}), (b:Person {name:'John'}) MERGE (a)-[:MARRIED {since:1998}]->(b)

运行查询命令:MATCH (n:PERSON) RETURN n,得到下图,人物关系图已建立好:

neo4j性能对比mysql neo4j和mysql区别_Cypher_07

 8. 然后,我们需要建立不同类型节点之间的关系-人物和地点的关系

MATCH (a:Person {name:'John'}), (b:Location {city:'Boston'}) MERGE (a)-[:BORN_IN {year:1978}]->(b)

这里的关系是BORN_IN,表示出生地,同样有一个属性,表示出生年份。

运行命令:MATCH (a:Person {name:'John'}), (b:Location {city:'Boston'}) return a,b,得到下图,在人物节点和地区节点之间,人物出生地关系已建立好。

neo4j性能对比mysql neo4j和mysql区别_ci_08

9. 同样建立更多人的出生地

MATCH (a:Person {name:'Liz'}), (b:Location {city:'Boston'}) MERGE (a)-[:BORN_IN {year:1981}]->(b)
MATCH (a:Person {name:'Mike'}), (b:Location {city:'San Francisco'}) MERGE (a)-[:BORN_IN {year:1960}]->(b)
MATCH (a:Person {name:'Shawn'}), (b:Location {city:'Miami'}) MERGE (a)-[:BORN_IN {year:1960}]->(b)
MATCH (a:Person {name:'Steve'}), (b:Location {city:'Lynn'}) MERGE (a)-[:BORN_IN {year:1970}]->(b)

建好以后,运行命令:MATCH (a:Person), (b:Location) return a,b,得到如下整个图:

neo4j性能对比mysql neo4j和mysql区别_删除节点_09

10. 下面可以开始做些查询了。我们查询下所有在Boston出生的人物

MATCH (a:Person)-[:BORN_IN]->(b:Location {city:'Boston'}) RETURN a,b

结果如图 

neo4j性能对比mysql neo4j和mysql区别_删除节点_10

11. 查询所有对外有关系的节点

MATCH (a)-->() RETURN a   # 注意该命令是对全库查询
MATCH (a:Perwon)-->() RETURN a   # 该命令是对类型为Person的节点进行查询

注意这里箭头的方向,返回结果不含任何地区节点,因为地区并没有指向其他节点(只是被指向)

neo4j性能对比mysql neo4j和mysql区别_ci_11

 12. 查询多节点的所有关系

MATCH (a)--() RETURN a  # 注意该命令会全库查询
MATCH (a:Person)--(b:Person)--(c:Location) RETURN a,b,c  # 查询指定节点关系

结果如图

neo4j性能对比mysql neo4j和mysql区别_删除节点_12

13. 查询所有对外有关系的节点,以及关系类型

MATCH (a)-[r]->() RETURN a.name, type(r)  # 对全库查询
MATCH (a:Person)-[r]->() RETURN a.name, type(r)  # 对Person类型节点查询

结果如图

neo4j性能对比mysql neo4j和mysql区别_ci_13

14. 查询所有有结婚关系的节点

MATCH (n)-[:MARRIED]-() RETURN n

结果如图

neo4j性能对比mysql neo4j和mysql区别_Cypher_14

15. 创建节点的时候就建好关系,可以没有return操作

CREATE (a:Person {name:'Todd'})-[r:FRIENDS]->(b:Person {name:'Carlos'}) RETURN a, b

结果如图

neo4j性能对比mysql neo4j和mysql区别_Cypher_15

16. 查找某人的朋友的朋友

MATCH (a:Person {name:'Mike'})-[r1:FRIENDS]-()-[r2:FRIENDS]-(friend_of_a_friend) RETURN friend_of_a_friend.name AS fofName

返回Mike的朋友的朋友:

neo4j性能对比mysql neo4j和mysql区别_ci_16

从图上也可以看出,Mike的朋友是Shawn,Shawn的朋友是John和Sally

neo4j性能对比mysql neo4j和mysql区别_ci_17

17. 增加/修改节点的属性

MATCH (a:Person {name:'Liz'}) SET a.age=34
MATCH (a:Person {name:'Shawn'}) SET a.age=32
MATCH (a:Person {name:'John'}) SET a.age=44
MATCH (a:Person {name:'Mike'}) SET a.age=25

这里,SET表示修改操作

18. 删除节点的属性

MATCH (a:Person {name:'Mike'}) SET a.test='test'
MATCH (a:Person {name:'Mike'}) REMOVE a.test

删除属性操作主要通过REMOVE

19. 删除节点

MATCH (a:Location {city:'Lynn'}) DELETE a  # 如果这个节点有关系存在,需要先删除节点的关系

删除节点操作是DELETE

20. 删除关系

# 删除有关系的节点和关系
MATCH (a:Person {name:'Todd'})-[rel]-(b:Person) DELETE a,b,rel  # 如果有其他节点与之相连则不能删除

# 删除与r存在的关系,同时也删除该节点
MATCH (r) WHERE id(r) = 166631 DETACH DELETE r  # 只能通过id来删除,可以不考虑其他节点是否与之相连

总结

本文重点针对常见的知识图谱图数据库Neo4J进行了介绍,并且采用一个实际的案例来说明Neo4J的查询语言Cypher的使用方法。