又回来补DL的坑了,这次是关于一个相对较新的方向——图神经网络。之前想做melody/chord generation时听Computer Music方向的大佬Gus Xia教授随口提了一句可以用图神经网络。最近暑期跟Finance相关的研究又跟Knowledge Graph扯到一起,于是开始了解一点GNN~
为什么要在graph的基础上跑neural networks?目的其实就是为了考虑entities之间的关系。李宏毅教授(的助教)的课中举的一个很贴切的例子:给定一部悬疑片的人物信息,需要预测凶手是谁。直接考虑每个人物的信息可能无法推出凶手,于是需要考虑人物关系网中人物之间的关系(姐弟,同事,师生等)。
GNN有两种类型:①Spatial-based convolution ②Spectral-based convolution。
下面讲一下相对简单的spatial-based GNN:(图片源网页:https://www.youtube.com/watch?v=eybCCtNKwzA)
这一类GNN基本思路为不断进行aggregate,最后根据task类型来readout。Aggregation是指对于每个节点,用自己以及相邻(有边连接)的节点的信息来update下一层中自己的状态。具体实现方式有很多,比如取平均值、加权和等,也可以自己用距离不超过d的其他节点(若只考虑相邻节点那么d=1),而且这个距离也可以自己定义,甚至可以对相邻节点做attention(Graph Attention Networks)。
值得注意的是,aggregation中sum的效果一般比mean pooling或max pooling好,原因是取mean或max无法分辨出一些图的差比。它们对于一些不同的图也可能算出相同的结果。比如下图底部(a)(b)(c)三种情况:
之后按照DGL库的教程做了一个简单的node classification。给定Cora数据集(一个以论文为节点,引用为边的citation网络),其中已知所有的边以及一部分(训练集中)论文的categories,要求预测其它论文(验证集和测试集)的categories。
代码如下:
import dgl
from dgl.nn import GraphConv
import torch
from torch import nn, optim
import torch.nn.functional as F
import networkx as nx
import matplotlib.pyplot as plt
from graphviz import Digraph
dataset = dgl.data.CoraGraphDataset()
g = dataset[0] # This DGL Dataset object only contains one single graph.
# print(g.ndata['feat'].shape, torch.sum(g.ndata['feat']==0), torch.sum(g.ndata['feat']!=0))
# print(len(g.all_edges()[0]))
class GCN(nn.Module):
def __init__(self, in_dim, hidden_dim, num_classes):
super(GCN, self).__init__()
self.conv1 = GraphConv(in_dim, hidden_dim)
self.conv2 = GraphConv(hidden_dim, num_classes)
def forward(self, g, in_features):
t = self.conv1(g, in_features)
t = F.relu(t)
t = self.conv2(g, t)
return t
model = GCN(g.ndata['feat'].shape[1], 16, dataset.num_classes)
def train(g, model, device, lr=0.01, epochs=300):
model = model.to(device)
g = g.to(device)
optimizer = optim.Adam(model.parameters(), lr=lr)
best_val_acc = 0
best_test_acc = 0 # corresponding to the state of best_val_acc
features = g.ndata['feat']
labels = g.ndata['label']
train_mask = g.ndata['train_mask']
val_mask = g.ndata['val_mask']
test_mask = g.ndata['test_mask']
criterion = nn.CrossEntropyLoss()
for epoch in range(epochs):
outputs = model(g, features)
preds = outputs.argmax(dim=1)
loss = criterion(outputs[train_mask], labels[train_mask])
train_acc = (preds[train_mask]==labels[train_mask]).float().mean()
val_acc = (preds[val_mask]==labels[val_mask]).float().mean()
test_acc = (preds[test_mask]==labels[test_mask]).float().mean()
if best_val_acc < val_acc:
best_val_acc = val_acc
best_test_acc = test_acc
optimizer.zero_grad()
loss.backward()
optimizer.step()
if (epoch + 1) % 10 == 0:
print(f'Epoch : {epoch + 1}, train loss: {loss}, valid accuracy: {val_acc}, test accuracy: {test_acc}')
model = model.cpu()
torch.save(model.state_dict(), 'model_state.pkl')
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train(g, model, device)
'''
G = nx.DiGraph()
labels = g.ndata['label'].numpy().tolist()
G.add_nodes_from([i for i in range(2708)])
sts = g.all_edges()[0].numpy().tolist()
eds = g.all_edges()[1].numpy().tolist()
for i in range(len(sts)):
G.add_edge(sts[i], eds[i], weight=0.01)
plt.figure(3, figsize=(18, 18))
nx.draw(G, with_labels=False, node_color=labels, node_size=0.8)
plt.show()
plt.close()
'''
试图visualize整个citation网络但没找到合适的方法。画出来大量的节点压成一团,几乎看不清连接这些节点的边,之后找高人指点一下.......
之后还有link prediction等简单的task可以尝试,做完再更~