GraphWorld:图形基准测试的进展

1726718692427.jpg

图形是连接关系组件(例如社交网络、交通基础设施、分子和互联网)的自然系统的常见表示。图形神经网络(GNN) 是强大的图形机器学习 (ML) 模型,它利用图形的固有连接将上下文纳入对图形内或整个图形内项目的预测中。GNN 已被有效用于发现新药、帮助数学家证明定理、检测错误信息以及提高Google 地图中到达时间预测的 准确性。

在过去十年中,人们对 GNN 的兴趣激增,产生了数千种GNN 变体,每年都会推出数百种。相比之下,用于评估GNN 的方法和数据集却没有受到太多关注。许多 GNN 论文重复使用相同的5-10 个基准数据集,其中大多数是由易于标记的学术引文网络和分子数据集构建的。这意味着新的 GNN 变体的经验性能只能用于有限类别的图。使这个问题更加复杂的是,最近发表的具有严格实验设计的作品使人们对开创性论文中报告的流行 GNN 模型的性能排名 产生了怀疑。

最近,专门针对 GNN 基准测试的研讨会和会议已经开始解决这些问题。最近推出的Open Graph Benchmark (OGB) 是一个开源软件包,用于在各种任务中对少量大规模图形数据集上的 GNN 进行基准测试,从而促进一致的 GNN 实验设计。然而,OGB 数据集来自与现有数据集相同的许多领域,例如引文和分子网络。这意味着 OGB 无法解决我们上面提到的数据集多样性问题。因此,我们要问:GNN 研究界如何通过在现实世界中具有巨大统计方差的图形上进行实验来跟上创新的步伐?

为了跟上 GNN 研究的规模和速度,在“ GraphWorld:假图为 GNN 带来真实洞察”中,我们介绍了一种分析 GNN 架构在数百万个合成基准数据集上的性能的方法。学术文献中介绍的 GNN 基准数据集只是完全多样化的潜在图“世界”中的个别“位置”,而 GraphWorld 则使用概率模型直接生成这个世界,在其上的每个位置测试 GNN 模型,并从结果中提取可推广的洞察。我们提出 GraphWorld 作为补充的 GNN 基准,使研究人员能够探索 GNN 在流行学术数据集未涵盖的图空间区域上的性能。此外,GraphWorld 具有成本效益,在合成数据上运行数十万次 GNN 实验的计算成本低于在大型 OGB 数据集上进行一次实验。

GraphWorld 管道的图示。用户提供图形生成器和要测试的 GNN 模型的配置。GraphWorld 生成工作器,每个工作器模拟具有不同属性的新图形并测试所有指定的 GNN 模型。然后汇总并存储来自工作器的测试指标以供用户使用。

GNN 基准数据集的多样性有限

为了说明 GraphWorld 的动机,我们将 OGB 图与网络存储库 中更大的图集合(5,000 多个)进行了比较。虽然绝大多数网络存储库图都没有标记,因此不能用于常见的 GNN 实验,但它们代表了现实世界中可用的大量图空间。我们计算了 OGB 和网络存储库图的两个属性:聚类系数(节点与附近邻居的互连程度)和度分布基尼系数(节点连接数之间的不平等)。我们发现 OGB 数据集存在于这个度量空间的有限且稀疏区域中。

Open Graph Benchmark 中的图表分布与网络存储库中的大量图表不匹配。

GraphWorld 中的数据集生成器

使用 GraphWorld 研究 GNN 在特定任务上的表现的研究人员首先会选择一个参数化生成器(见下例),该生成器可以生成图形数据集,用于对任务上的 GNN 模型进行压力测试。生成器参数是控制输出数据集高级特征的输入。GraphWorld 使用参数化生成器生成图形数据集群,这些数据集的变化足以测试最先进的 GNN 模型的极限。

例如,GNN 的一个常见任务是节点分类,其中训练 GNN 来推断表示每个节点某些未知属性的节点标签,例如社交网络中的用户兴趣。在我们的论文中,我们选择了著名的随机块模型(SBM) 来生成此任务的数据集。SBM 首先将预设数量的节点组织成组或“集群”,作为要分类的节点标签。然后,它根据各种参数生成节点之间的连接,这些参数(每个参数)控制结果图的不同属性。

我们向 GraphWorld 公开的一个 SBM 参数是集群的“同质性”,它控制来自同一集群的两个节点连接的可能性(相对于来自不同集群的两个节点)。同质性是社交网络中的一种常见现象,其中具有相似兴趣(例如,SBM 集群)的用户更有可能建立联系。但是,并非所有社交网络都具有相同的同质性水平。GraphWorld 使用 SBM 生成具有高同质性的图(左下方)、具有低同质性的图(右下方)以及数百万个具有介于两者之间的任何同质性水平的图。这允许用户分析具有所有同质性水平的图上的 GNN 性能,而无需依赖其他研究人员策划的真实世界数据集的可用性。

GraphWorld 使用随机块模型生成的图的示例。左图在节点类别(用不同颜色表示)之间具有较高的同质性;右图具有较低的同质性。

GraphWorld 实验和见解

给定一个任务和该任务的参数化生成器,GraphWorld 使用并行计算(例如Google Cloud Platform Dataflow)通过对生成器参数值进行采样来生成 GNN 基准数据集世界。同时,GraphWorld 在每个数据集上测试任意列表的 GNN 模型(由用户选择,例如GCN、GAT、GraphSAGE),然后输出一个将图形属性与 GNN 性能结果结合在一起的海量表格数据集。

在我们的论文中,我们描述了用于节点分类、链接预测和图分类任务的 GraphWorld 管道,每个管道都具有不同的数据集生成器。我们发现每个管道所花费的时间和计算资源都比OGB 图上最先进的实验要少,这意味着 GraphWorld 可供预算较低的研究人员使用。

下方的动画可视化了来自 GraphWorld 节点分类管道(使用 SBM 作为数据集生成器)的 GNN 性能数据。为了说明 GraphWorld 的影响,我们首先将经典的学术图形数据集映射到x - y平面,该平面测量每个图形内的聚类同质性(x轴)和节点度的平均值(y轴)(类似于上面包含 OGB 数据集的散点图,但测量值不同)。然后,我们将 GraphWorld 中的每个模拟图形数据集映射到同一平面,并添加第三个z轴,用于测量每个数据集上的 GNN 模型性能。具体来说,对于特定的 GNN 模型(如GCN或GAT),z轴测量该模型与我们论文中评估的其他 13 个 GNN 模型的平均倒数等级,其中值越接近 1 表示该模型在节点分类准确度方面越接近最佳表现。

动画演示了两个相关结论。首先,GraphWorld 生成的图数据集区域远远超出了标准数据集所涵盖的区域。其次,也是最重要的一点,当图与学术基准图变得不同时,GNN 模型的排名会发生变化。具体来说,Cora 和 CiteSeer等经典数据集的同质性很高,这意味着节点在图中根据其类别很好地分开。我们发现,随着 GNN 向同质性较低的图空间移动,它们的排名会迅速变化。例如,GCN 的比较平均倒数排名从学术基准区域中的较高值(绿色)移动到远离该区域的较低值(红色)。这表明 GraphWorld 有可能揭示 GNN 架构开发中的关键空间,而这在仅使用学术基准提供的少数单个数据集时是看不见的。

三种 GNN 变体( GCN、APPNP、FiLM )在 50,000 个不同节点分类数据集上的相对性能结果。我们发现学术 GNN 基准数据集存在于 GraphWorld 区域中,其中模型排名不会发生变化。GraphWorld 可以发现以前未探索过的图表,从而揭示有关 GNN 架构的新见解。

结论

GraphWorld 为 GNN 实验开辟了新天地,它允许研究人员在高维图形数据集表面上可扩展地测试新模型。这样就可以针对图形的整个子空间上的图形属性对 GNN 架构进行细粒度分析,这些子空间与 Cora 类图形和 OGB 中的图形不同,而这些图形在 GraphWorld 数据集中仅显示为单个点。GraphWorld 的一个主要特点是成本低廉,这使得无法获得机构资源的个体研究人员能够快速了解新模型的实证表现。

借助 GraphWorld,研究人员还可以研究新的随机/生成图模型,以进行更细致的 GNN 实验,并可能使用 GraphWorld 数据集进行GNN 预训练。我们期待通过我们的开源 GraphWorld 存储库和后续项目 支持这些研究方向。

致谢

GraphWorld 是与 Google Research 的 Brandon Mayer 和 Bryan Perozzi 合作完成的。感谢 Tom Small 提供的可视化效果。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论