<aside> <img src="/icons/condense_yellow.svg" alt="/icons/condense_yellow.svg" width="40px" /> Python | 数学 | 临床 | 诊断 | 图谱 | 点云 | 三维 | 图神经 | 文本 | 感知 | 语言模型 | 疾病 | 异构图 | 预测 | 转录组 | 细胞 | 分子 | 多态融合 | 药物 | 病态 | 算法

</aside>

📜用例

📜Python社群纽带关系谱和图神经 | 📜问答知识图谱 | 📜点云三维对象检测图神经 | 📜文本中图结构感知语言模型 | 📜疾病预测图学习 | 📜转录组预测疾病状态 | 📜空间细胞邻域图学习 | 📜预测分子生长抑制图学习 | 📜多态融合算法药物再利用 | 📜病态融合临床诊断 。

✒️Python图学习

我们将摄取 Planetoid Cora 数据集,并对词袋输入特征进行行标准化。之后,我们将分析数据集和第一个图形对象。

 from torch_geometric.datasets import Planetoid
 from torch_geometric.transforms import NormalizeFeatures
 
 dataset = Planetoid(root='data/Planetoid', name='Cora', transform=NormalizeFeatures())
 
 print(f'Dataset: {dataset}:')
 print('======================')
 print(f'Number of graphs: {len(dataset)}')
 print(f'Number of features: {dataset.num_features}')
 print(f'Number of classes: {dataset.num_classes}')
 
 data = dataset[0] 
 print(data)

Cora 数据集有 2708 个节点、10,556 个边、1433 个特征和 7 个类。第一个对象有 2708 个训练、验证和测试掩模。我们将使用这些掩模来训练和评估模型。

 Dataset: Cora():
 ======================
 Number of graphs: 1
 Number of features: 1433
 Number of classes: 7
 Data(x=[2708, 1433], edge_index=[2, 10556], y=[2708], train_mask=[2708], val_mask=[2708], test_mask=[2708])

我们将创建一个图卷积网络模型结构,其中包含两个 GCNConv 层 relu 激活和 0.5 的 dropout 率。该模型由 16 个隐藏通道组成。

GCNConv 层 :

$$ x v^{(\ell+1)}= W ^{(\ell+1)} \sum{w \in N (v) \cup\{v\}} \frac{1}{c_{w, v}} \cdot x _w^{(\ell)} $$

$W(\ell+1)$ 是上式中的可转换权重矩阵,C W, v 为每条边指定一个固定的归一化系数。

 from torch_geometric.nn import GCNConv
 import torch.nn.functional as F
 
 class GCN(torch.nn.Module):
     def __init__(self, hidden_channels):
         super().__init__()
         torch.manual_seed(1234567)
         self.conv1 = GCNConv(dataset.num_features, hidden_channels)
         self.conv2 = GCNConv(hidden_channels, dataset.num_classes)
 
     def forward(self, x, edge_index):
         x = self.conv1(x, edge_index)
         x = x.relu()
         x = F.dropout(x, p=0.5, training=self.training)
         x = self.conv2(x, edge_index)
         return x
 
 model = GCN(hidden_channels=16)
 print(model)
 
 >>> GCN(
     (conv1): GCNConv(1433, 16)
     (conv2): GCNConv(16, 7)
   )

让我们使用 sklearn.manifold.TSNE 和 matplotlib.pyplot 可视化未经训练的 GCN 网络的节点嵌入。它将绘制一个嵌入 2D 散点图的 7 维节点。

 %matplotlib inline
 import matplotlib.pyplot as plt
 from sklearn.manifold import TSNE
 
 def visualize(h, color):
     z = TSNE(n_components=2).fit_transform(h.detach().cpu().numpy())
 
     plt.figure(figsize=(10,10))
     plt.xticks([])
     plt.yticks([])
 
     plt.scatter(z[:, 0], z[:, 1], s=70, c=color, cmap="Set2")
     plt.show()

我们将评估模型,然后将训练数据添加到未经训练的模型中,以可视化各种节点和类别。

 model.eval()
 
 out = model(data.x, data.edge_index)
 visualize(out, color=data.y)

我们将使用 Adam 优化和交叉熵损失函数在 100 个 Epoch 上训练我们的模型。

 model = GCN(hidden_channels=16)
 optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)
 criterion = torch.nn.CrossEntropyLoss()
 
 def train():
       model.train()
       optimizer.zero_grad()
       out = model(data.x, data.edge_index)
       loss = criterion(out[data.train_mask], data.y[data.train_mask])
       loss.backward()
       optimizer.step()
       return loss
 
 def test():
       model.eval()
       out = model(data.x, data.edge_index)
       pred = out.argmax(dim=1)
       test_correct = pred[data.test_mask] == data.y[data.test_mask]
       test_acc = int(test_correct.sum()) / int(data.test_mask.sum())
       return test_acc
 
 
 for epoch in range(1, 101):
     loss = train()
     print(f'Epoch: {epoch:03d}, Loss: {loss:.4f}')
 GAT(
   (conv1): GATConv(1433, 8, heads=8)
   (conv2): GATConv(64, 7, heads=8)
 )
 
 .. .. .. ..
 .. .. .. ..
 Epoch: 098, Loss: 0.5989
 Epoch: 099, Loss: 0.6021
 Epoch: 100, Loss: 0.5799

现在,我们将使用测试函数在未见过的数据集上评估模型,如您所见,我们得到了相当不错的结果,准确率达到 81.5%。