利用深度学习和众包重现历史街景

对于很多人来说,凝视一张城市老照片会唤起怀旧和好奇的情绪——20 世纪 40 年代走在曼哈顿是什么感觉?一个人长大的那条街道发生了多大的变化?虽然谷歌街景可以让人们看到一个地区现在的样子,但如果你想探索过去的地方是什么样子呢?

为了在研究和娱乐方面打造一次有意义的“时间旅行”体验,我们推出了一款基于浏览器的工具集,名为 rǝ(发音为 re“ turn ”),这是一个在Google Cloud和Kubernetes上运行的开源、可扩展系统,可以根据历史地图和照片重建城市,这是我们今年早些时候推出的一套开源工具的实现。rǝ引用了常见的前缀“再次”或“重新”的意思,旨在代表这项众包研究工作背后的重建、研究、娱乐和记忆的主题,由三个部分组成:

众包平台,允许用户上传城市历史地图、进行地理校正(即,将其与现实世界坐标匹配)并对其进行矢量化

时间地图服务器,显示城市地图如何随时间变化

3D 体验平台,运行在rǝ地图服务器上,利用深度学习从有限的历史图像和地图数据中以 3D 形式重建建筑物,从而创造 3D 体验。

我们的目标是让rǝ成为一本概要,让历史爱好者能够虚拟体验世界各地的历史名城,帮助研究人员、政策制定者和教育工作者,并为日常用户带来一丝怀旧之情。

1729691188842.jpg

曼哈顿切尔西的鸟瞰图,带有 1890 年至 1970 年的时间滑块,根据历史照片和地图制作而成,使用rǝ的 3D 重建管道,并使用预设的曼哈顿风格调色板进行着色。

来自历史地图的众包数据

重建城市过去的面貌是一项挑战——历史图像数据比现代数据更难处理,因为可用的图像少得多,从图像中捕获的元数据也少得多。为了解决这个困难,rǝ地图模块是一套开源工具,它们协同工作以创建一个具有时间维度的地图服务器,允许用户使用滑块在各个时间段之间来回跳转。这些工具允许用户上传历史印刷地图的扫描件,对其进行地理校正以匹配真实世界坐标,然后通过追踪其地理特征将其转换为矢量格式。然后,这些矢量化地图被送到图块服务器上并呈现为滑动地图,供用户放大和平移。

1729691175569.jpg

rǝ工具套件的子模块

rǝ地图模块 的入口点是Warper,这是一个 Web 应用,允许用户上传地图的历史图像,并通过在历史地图上查找控制点以及在基础地图上查找对应点来对其进行地理校正。下一个应用Editor允许用户将地理校正后的历史地图加载为背景,然后追踪其地理特征(例如,建筑物覆盖区、道路等)。追踪的数据以OpenStreetMap (OSM) 矢量格式存储。然后,它们被转换为矢量图块,并通过Server应用(矢量图块服务器)提供服务。最后,我们的地图渲染器Kartta将时空矢量图块可视化,使用户可以在历史地图上导航空间和时间。这些工具建立在包括 OpenStreetMap 在内的众多开源资源之上,我们也打算让我们的工具和数据完全开源。

1729691162541.jpg

Warper 和 Editor 协同工作,让用户可以上传地图,使用控制点将其固定到基础地图,并追踪建筑物足迹和道路等地理特征。

3D 体验3D 模型

模块旨在使用相关图像和地图数据重建历史建筑的详细完整 3D 结构,在一个存储库中正确组织这些 3D 模型,并将它们呈现在具有时间维度的历史地图上。

很多情况下,一栋建筑只有一张历史图像,这使得 3D 重建成为一项极具挑战性的问题。为了应对这一挑战,我们开发了一种由粗到精的识别重建算法。

1729691149719.jpg

rǝ的 3D 重建管道的高层概述,该管道采用带注释的图像和地图并为其准备 3D 渲染。

从地图上的足迹和历史图像中的立面区域开始(均由众包注释或通过自动算法检测),将一栋输入建筑的足迹向上挤压以生成其粗略的 3D 结构。此挤压的高度设置为地图数据库中相应元数据中的楼层数。

同时,3D 重建管道不会直接将每个立面的详细 3D 结构推断为一个实体,而是识别所有单独的组成部分(例如窗户、入口、楼梯等),并根据其类别分别重建其 3D 结构。然后,将这些详细的 3D 结构与粗略结构合并,形成最终的 3D 网格。结果存储在 3D 存储库中,可供 3D 渲染。

支持此功能的关键技术是许多最先进的深度学习模型:

使用针对每个目标语义类别(例如,窗户、入口、楼梯等)的外观组件注释来训练更快的基于区域的卷积神经网络(RCNN),用于定位历史图像中的边界框级别实例。

DeepLab是一种语义分割模型,经过训练可以为每个语义类别提供像素级标签。

专门设计的神经网络经过训练,可在同一语义类别中强制执行高级规律。这确保了立面上生成的窗户间距相等且形状一致。这也促进了不同语义类别(如楼梯)之间的一致性,以确保它们放置在合理的位置,并且相对于相关入口具有一致的尺寸。

主要结果

1729691140370.jpg

3D 重建的曼哈顿切尔西街道视图

结论

借助rǝ,我们开发了便于众包的工具,以解决重建虚拟城市时历史数据不足的主要挑战。3D 体验仍在开发中,我们的目标是在未来的更新中对其进行改进。我们希望rǝ能够成为一个活跃的爱好者和普通用户社区的纽带,不仅利用我们的历史数据集和开源代码,还积极为两者做出贡献。

致谢

此项工作取得了成功,这要归功于许多人的辛勤工作,包括但不限于以下人员(按姓氏字母顺序排列):Yale Cong、Feng Han、Amol Kapoor、Raimondas Kiveris、Brandon Mayer、Mark Phillips、Sasan Tavakkol 和 Tim Waters(Waters Geospatial Ltd)。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论