稳健图神经网络

1727067275527(1).jpg

图神经网络(GNN) 是利用机器学习中的图结构数据的强大工具。图是一种灵活的数据结构,可以对多种不同类型的关系进行建模,并已用于各种应用,例如交通预测、谣言和虚假新闻检测、疾病传播建模以及了解分子气味的原因。

图表可以模拟许多不同类型数据之间的关系,包括网页(左)、社交连接(中)或分子(右)。

与机器学习 (ML) 中的标准一样,GNN 假设训练样本是随机均匀选择的(即独立同分布或“IID”样本)。这很容易通过标准学术数据集来实现,这些数据集是专门为研究分析创建的,因此每个节点都已标记。然而,在许多现实世界场景中,数据没有标签,标记数据可能是一个繁重的过程,需要熟练的人工评估者,这使得标记所有节点变得困难。此外,有偏差的训练数据是一个常见问题,因为选择要标记的节点的行为通常不是 IID。例如,有时使用固定的启发式方法来选择数据子集(具有某些共同特征)进行标记,而有时,人工分析师会使用复杂的领域知识单独选择要标记的数据项。

局部训练数据是图结构数据中典型的非 IID 偏差。左图通过选取一个橙色节点并扩展到其周围的节点来显示这一点。相反,用于标记的节点的 IID 训练样本将均匀分布,如右图的采样过程所示。

为了量化训练集中存在的偏差量,可以使用测量两个不同概率分布之间的偏移量的方法,其中偏移量的大小可以被视为偏差量。随着偏移量的增加,机器学习模型从有偏差的训练集中进行泛化会变得更加困难。这种情况可能会严重损害泛化能力——在学术数据集上,我们观察到领域偏移导致性能下降 15-20%(以F1 分数衡量)。

在NeurIPS 2021上发表的 “ Shift-Robust GNN:克服局部图训练数据的局限性”中,我们介绍了一种在有偏数据上使用 GNN 的解决方案。这种方法称为 Shift-Robust GNN (SR-GNN),旨在解释有偏训练数据和图的真实推理分布之间的分布差异。SR-GNN 使 GNN 模型适应标记为训练的节点和数据集其余部分之间的分布偏移。我们在用于半监督学习的常见 GNN 基准数据集上使用有偏训练数据集进行的各种实验中说明了 SR-GNN 的有效性,并表明 SR-GNN 在准确性方面优于其他 GNN 基线,将有偏训练数据的负面影响降低了 30–40%。

分布偏移对性能的影响

为了说明分布偏移如何影响 GNN 性能,我们首先为已知的学术数据集生成一些有偏训练集。然后,为了了解其影响,我们绘制了泛化(测试准确率)与分布偏移度量(中心矩差异1,CMD)的关系图。例如,考虑众所周知的PubMed引文数据集,可以将其视为一个图,其中节点是医学研究论文,边表示它们之间的引文。当我们为 PubMed 生成有偏训练数据时,该图如下所示:

分布偏移对 PubMed 数据集的影响。y轴上显示性能 ( F1 ),x 轴上显示分布偏移、中心矩差异 ( CMD ),针对 100 个有偏差的训练集样本。随着分布偏移的增加,模型的准确性会下降。

在这里,我们可以观察到数据集中的分布偏移与分类准确率之间存在强烈的负相关性:随着 CMD 的增加,性能 (F1) 会下降。也就是说,GNN 可能难以推广,因为它们的训练数据看起来不太像测试数据集。

为了解决这个问题,我们提出了一种抗偏移正则化器(其理念类似于域不变学习),以尽量减少训练数据和来自未标记数据的 IID 样本之间的分布偏移。为此,我们在模型训练时实时测量域偏移(例如通过 CMD),并根据此测量应用直接惩罚,迫使模型尽可能多地忽略训练偏差。这迫使模型为训练数据学习的特征编码器也有效地用于任何可能来自不同分布的未标记数据。

下图显示了 与传统 GNN 模型相比的情况。我们仍然具有相同的输入(节点特征X和邻接矩阵A )和相同数量的层。然而,在 GNN 的层 ( k ) 中的最终嵌入Zk与来自未标记数据点的嵌入进行比较,以验证模型是否正确编码它们。

SR-GNN 为深度 GNN 模型添加了两种正则化。首先,域移位正则化(λ项)最小化标记( Z k)和未标记(Z IID )数据的隐藏表示之间的距离。其次,可以更改示例的实例权重(β )以进一步近似真实分布。

我们根据训练数据表示与真实数据分布之间的距离,将此正则化写为模型损失公式中的附加项(完整公式请参阅论文)。

在我们的实验中,我们将我们的方法与许多标准图神经网络模型进行比较,以衡量它们在节点分类任务上的表现。我们证明,添加 SR-GNN 正则化可以使具有有偏差的训练数据标签的分类任务的性能提高 30% 至 40%。

在 PubMed 数据集上使用节点分类与有偏训练数据对 SR-GNN 进行比较。SR -GNN 的表现优于七个基线,包括DGI、GCN、GAT、SGC和APPNP。

通过实例重新加权实现线性 GNN 的移位稳健正则化

此外,值得注意的是,还有另一类 GNN 模型(例如APPNP、SimpleGCN等)基于线性运算来加速其图卷积。我们还研究了如何在存在偏差的训练数据的情况下使这些模型更可靠。虽然由于架构不同,无法直接应用相同的正则化机制,但我们可以通过根据训练实例与近似真实分布的距离重新加权来“纠正”训练偏差。这允许纠正有偏差的训练数据的分布,而无需通过模型传递梯度。

最后,这两个正则化(针对深度和线性 GNN)可以组合成损失的广义正则化,它结合了域正则化和实例重新加权(详细信息,包括损失公式,可在论文中找到)。

结论

有偏差的训练数据在现实世界中很常见,可能由于多种原因而出现,包括标记大量数据的困难、用于选择标记节点的各种启发式或不一致的技术、延迟的标签分配等。我们提出了一个通用框架 (SR-GNN),它可以减少有偏差的训练数据的影响,并可应用于各种类型的 GNN,包括更深的 GNN 和这些模型的较新的线性化(浅层)版本。

致谢

Qi Zhu 是 UIUC 的博士生。感谢我们的合作者 Natalia Ponomareva(谷歌研究)和 Jiawei Han(UIUC)。感谢 Tom Small 和 Anton Tsitsulin 提供可视化。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论