找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 38|回复: 0

洞察人口动态:地理空间推理的基础模型

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-2 21:53:05 | 显示全部楼层 |阅读模式
我们引入了人口动态基础模型和数据集,能够轻松适应解决健康、社会经济和环境任务中的各种地理空间问题。
人口、健康结果和当地环境之间的关系可能非常复杂。然而,了解这些人口动态对于解决疾病、经济安全、灾难应对等复杂社会问题至关重要。然而,尽管人口动态很重要,但几十年来一直难以准确预测这些人口动态,这对研究人员、政策制定者和企业来说仍然是一个挑战。
传统的了解人口动态的方法往往依赖于人口普查、调查或卫星图像的数据。虽然这些数据很有价值,但它们各自都有自己的缺点。人口普查虽然全面,但不频繁且昂贵;调查可以提供局部见解,但往往缺乏规模和普遍性;卫星图像提供了广泛的概览,但缺乏有关人类活动的详细信息。为了弥补其中的一些缺点,多年来,Google 设计、构建和分享了大量数据集,为了解人口行为提供了独到的见解,其中包括Google 搜索趋势、COVID-19 社区流动性报告和紧急产科护理的可及性。
为了继续实现这一目标,今天我们很高兴推出一种新型地理空间基础模型,该模型基于聚合数据构建,以保护隐私,我们在“使用人口动态基础模型进行一般地理空间推断”中对其进行了描述。我们设计了该模型(称为 PDFM),以便用户可以轻松地对其进行微调以适应各种下游任务。我们还发布了一个由 PDFM 派生的唯一位置嵌入数据集和代码配方,用户可以使用这些代码配方来增强其现有的地理空间模型。数据集和代码配方旨在提供可应用于依赖于对人口及其当地环境特征的理解的机器学习 (ML) 问题的见解。它们很容易适应许多数据科学问题,从而能够更全面、更细致地了解世界各地的人口动态。
人口动态基础模型架构
PDFM 的核心是图神经网络(GNN),它将位置嵌入编码为信息丰富的低维数值向量。对于我们的第一代 PDFM,我们构建了一个覆盖美国大陆的图,其中县和邮政编码作为节点。每个节点都包含相应的以人为中心的数据、环境数据和本地特征作为特征。这些节点通过两种类型的边连接:
基于邻近度的边:这些边连接 100 英里半径范围内的相同类型(邮政编码 ↔ 邮政编码、县 ↔ 县)的位置。如果不同类型的位置(县 ↔ 邮政编码,反之亦然)具有重叠的地理边界,则它们会连接在一起。通过这种方式,图表可以捕捉空间关系。
基于关系的边:这些边源自聚合搜索趋势的相似性。
GNN 使用自我监督通过消息传递来学习这些位置之间的复杂关系,并且不依赖于任何特定任务。它整合了来自每个节点邻居的信息,将每个节点的原始输入信号转换为具有丰富群体动态理解的嵌入。
PDFM 嵌入
PDFM 结合了不同的信息源,为不同位置创建独特的嵌入,捕捉其多方面特征以及人类行为与环境之间的复杂相互作用。所包含的数据类型范围包括:
以人口为中心的数据:这包括汇总的网络搜索趋势,可深入了解不同社区的兴趣、关注点和需求。它还包含有关某个地点繁忙程度的汇总指标,可揭示人们如何与环境互动以及如何对事件做出反应。
环境数据:包括可能影响人口动态的天气和空气质量测量。
当地特征:这包括兴趣点类别的数据,这些数据为不同地点的便利设施、服务和业务提供了宝贵的背景信息。
PDFM 的嵌入是根据已经在行政区域和时间范围内汇总的数据构建的,以保护隐私。
为下游地理空间建​​模提供支持
我们评估了 PDFM 在四个关键地理空间任务上的表现:
插值:填充数据集中缺失的位置。
外推:推广到更大空间距离内看不见的位置。
预测:预测现有地理空间时间序列的未来时间步长。
超分辨率:从低分辨率源生成高分辨率数据。
对于每项任务,我们使用 PDFM 嵌入作为协变量训练了一个简单的下游监督学习模型。我们使用之前发布的基准,在 29 个不同的地理空间变量集上测试了每个模型,包括健康、社会经济和环境类别。
监督模型的预测结果与现有的先进方法进行了比较,包括SatCLIP(基于卫星图像的地理编码器)和GeoCLIP(经过数百万张地理标记图像的训练)。我们还将其与更传统的插值技术进行了比较,例如反距离加权(IDW)。在几乎所有情况下,使用 PDFM 的效果都优于其他方法:
虽然上述结果反映了下游模型的特定选择,但进一步的实验表明,在各种监督学习算法的选择中,结果都是相当的。这反映了 PDFM 能够在不影响性能的情况下提供多功能性和灵活性。
使用 PDFM 嵌入增强预测
我们还测试了 PDFM 的位置嵌入是否有助于提高时间预测模型的准确性。为此,我们将 PDFM 嵌入与通用单变量预测基础模型TimesFM集成在一起。我们训练了一个简单的适配器——一个两层的多层感知器(MLP)——以使用 PDFM 嵌入增强 TimesFM 预测,并将结果与​​完全监督的方法自回归积分移动平均法(ARIMA) 进行了比较。然后,我们在两个变量上评估了这种方法:县级失业率和邮政编码级别的贫困率。TimesFM 与 PDFM 嵌入相结合的方法具有最低的平均绝对百分比误差,失业率预测误差降低了 5%,贫困率预测误差降低了 20%。
我们还能够通过将 SatCLIP 特征作为另一个输入信号纳入 PDFM 来补充和增强我们原始模式的性能,从而显著提高社会经济和环境任务的性能。
PDFM 应用程序
我们相信 PDFM 可应用于各个领域的一系列应用,包括:
公共卫生: PDFM 可用于预测疾病流行和传播的模型,以帮助制定公共卫生政策和资源分配决策。
零售:零售分析师可以使用 PDFM 在决策过程中考虑人口密度、消费者兴趣和竞争对手的存在等因素。
气候风险影响分析:环境科学家可以将 PDFM 应用于监测人类砍伐森林的影响、空气质量变化以及气候变化对不同地区的影响的模型。
宏观和社会经济指标: PDFM 可用于表征具有嵌入的区域,以优化宏观和社会经济指标,如 GDP 或失业率。
PDFM 可用性
要为您自己的地理空间任务开发模型,您可以查看示例Google Colab Notebooks(包括插值和外推、超分辨率、即时预报和使用现有模型增强预测的方法),并使用此表单请求访问我们正在为美国试行的 PDFM 嵌入。我们相信 PDFM 有潜力增强地理空间建​​模并为理解和支持世界各地的人口开启新的可能性。但我们无法独自实现这一潜力,因此,我们邀请社区探索和在此基础上继续努力,并分享反馈和建议以进一步改进嵌入。
致谢
这项工作是与 Mohit Agarwal、Mimi Sun、Chaitanya Kamath、Arbaaz穆斯林、Prithul Sarker、Joydeep Paul、Hector Yee、Marcin Sieniek、Kim Jablonski、Yael Mayer、David Fork、Sheila de Guia、Jamie McPike、Adam Boulanger 合作完成的, Tomer Shekel、姚晓、Manjit Chakravarthy Manukonda、刘云、Neslihan Bulut、Sami Abu-el-haija、Arno Eigenwillig、Parth Kothari、Bryan Perozzi、Monica Bharel、Von Nguyen、Luke Barrington、Niv Efron、Yossi Matias、Greg S. Corrado、Krish Eswaran、Shruthi Prabhakara、Shravya Shetty。约翰·吉利亚德的视觉设计。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-26 20:06 , Processed in 0.078430 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表