本文作者:Ömer Özgür
来源:DeepHub IMBA
在本文中,我们将了解为什么图数据是必不可少的,以及如何用图形神经网络处理它们,我们将看到它们如何用于药物重新定位。
图的力量
图的独特功能可以捕获数据之间的结构关系,从而比孤立地分析数据可以获得更多的洞察力。图是最通用的数据结构之一。它们自然出现在许多应用领域,从社会分析、生物信息学到计算机视觉。
这里只是一些例子:
① 医疗诊断和电子健康记录建模
② 药物发现和合成化合物
③ 社会影响预测
④ 推荐系统
⑤ 流量预测
欧几里得数据被建模为在 n 维线性空间中绘制。例如,图像文件可以用 x、y、z 坐标表示。
非欧几里得数据没有必要的大小或结构。它们处于动态结构中。
因此,一个潜在的解决方案是在低维欧几里得空间中学习图的表示,从而可以保留图的属性。
图神经网络的特征
1. 邻接矩阵
邻接矩阵是用 0 或 1 填充的 N x N 矩阵,其中 N 是节点总数。邻接矩阵能够通过矩阵中的值来表示连接节点对的边的存在。
实际上,将我们的图表示为邻接矩阵使我们能够以张量的形式将其提供给网络,这是我们的模型可以使用的。
2. 节点特征
该矩阵表示每个节点的特征或属性。节点功能可能因您尝试解决的问题类型而异。
例如,如果您正在处理 NLP 问题,则节点可以具有句子的独热编码向量或具有定义连接到分子的原子的属性,例如原子类型、电荷数和键。
CNN vs GCN
卷积神经网络在提取复杂特征方面已被证明非常有效,如今卷积层代表了许多深度学习模型的支柱。CNN 在处理任何维度的数据方面都取得了成功。
CNN 如此有效的原因在于它能够学习一系列过滤器来提取更复杂的模式。有了一点创造性,我们可以将这些相同的想法应用于图形数据。
图像是连接到其他像素的像素的隐式图形,但它们始终具有固定的结构。社交媒体网络、分子结构表示或地图上的地址不是欧几里得的。
GCN 执行类似的操作,其中模型通过检查相邻节点来学习特征。
图卷积网络基础
GCN 本身可以分为两种强大的算法,空间(Spatial)图卷积网络和谱(Spectral )图卷积网络。
空间卷积适用于节点的局部邻域,并根据节点的 k 个局部邻域了解节点的属性。
在谱图卷积中,我们对图的拉普拉斯矩阵进行特征分解。这种特征分解帮助我们理解图的底层结构,我们可以用它来识别这个图的集群。
与空间图卷积方法相比,谱图卷积目前不太常用。
GNN 还具有独特的消息共享机制。它们在相邻节点之间执行一些聚合。我们可以将这个过程想象为传递消息和更新,其中 GCN 的每一层都获取邻居节点的聚合并将其传递给下一个节点。
我们可以使用学习到的节点嵌入来执行许多操作。例如,我们可以对节点向量求和,然后使用 MLP 进行分类。
图卷积的另一个案例
我们吃的食物含有数以千计的生物活性分子,其中一些类似于抗癌药物。现代机器学习技术可以发现并重新利用这种分子。
越来越多的证据表明,来自多种化学类别的数千种其他分子,如植物中丰富的多酚、黄酮类化合物、萜类化合物,可能有助于预防和对抗疾病
在这个论文中,研究人员应用图神经网络使用蛋白质-蛋白质和药物-蛋白质相互作用图来寻找食物中的抗癌分子。
机器学习发现的一些超级食物清单:柑橘类水果、卷心菜、芹菜。
论文地址:https://www.nature.com/articles/s41598-019-45349-y
最后总结
从知识图谱到社交网络,图谱应用无处不在。
GNN 的目标是在低维欧几里得空间中学习图的表示。
图卷积网络具有强大的表达能力来学习图表示,并在广泛的任务和应用中取得了卓越的性能。
GNC 在药物发现中必不可少。
本文转自:DeepHub IMBA ,转载此文目的在于传递更多信息,版权归原作者所有。