SANPO:场景理解、可访问性、导航、寻路和避障数据集

1724373719136.jpg

大多数人在日常生活中导航时,都会使用与眼睛水平相同的视角来处理来自环境的视觉输入。与机器人和自动驾驶汽车不同,人类没有任何“体外”传感器来帮助引导他们。相反,人类的感官输入完全是“以自我为中心”的,或者“来自自我”。这也适用于从类似人类的角度理解我们周围世界的新技术,例如,在未知建筑物中导航的机器人、突出显示物体的 AR 眼镜或帮助人们独立跑步的辅助技术。

在计算机视觉中,场景理解是一个子领域,它通过关注物体与其环境之间的空间、功能和语义关系,研究可见物体如何与场景的 3D 结构和布局相关联。例如,自动驾驶汽车必须了解道路、人行道和周围建筑物的 3D 结构,同时识别和辨别路牌和红绿灯,而这项任务可以通过安装在汽车顶部的特殊激光扫描仪提供的 3D 数据(而不是驾驶员视角的 2D 图像)变得更容易。在公园中导航的机器人必须了解路径在哪里以及可能受到哪些障碍物的干扰,而周围环境的地图和 GPS 定位数据可以简化这一过程。最后,帮助用户找到路线的 AR 眼镜需要了解用户的位置以及他们正在看什么。

计算机视觉社区通常在自动驾驶等环境下研究场景理解任务,在这些环境下,除了以自我为中心的图像之外,还有许多其他传感器(GPS、车轮定位、地图等)。然而,该领域的大多数数据集并不只关注以自我为中心的数据,因此它们不太适用于以人为中心的导航任务。虽然有大量专注于自动驾驶的场景理解数据集,但它们对以自我为中心的人类场景理解的泛化有限。全面的以人类自我为中心的数据集将有助于为相关应用构建系统,并成为场景理解社区具有挑战性的基准。

为此,我们提出了场景理解、可访问性、导航、路径查找、避障数据集,即SANPO(日语中意为“轻快漫步”),这是一个用于理解户外人类自我中心场景的多属性视频数据集。该数据集由现实世界数据和合成数据组成,我们分别称之为 SANPO-Real 和 SANPO-Synthetic。它支持各种密集预测任务,对当前模型来说具有挑战性,包括具有深度图和视频全景蒙版的真实数据和合成数据,其中每个像素都分配有一个语义类标签(对于某些语义类,每个像素还分配有一个语义实例 ID,用于唯一地标识场景中的该对象)。真实数据集涵盖不同的环境,并具有来自两个立体摄像机的视频以支持多视图方法,包括以每秒 15 帧 (FPS) 的速度捕获的 11.4 小时视频,并带有密集注释。研究人员可以在此处下载和使用 SANPO 。

使用提供的注释(分割、深度和摄像头位置)构建的真实会话的 3D 场景。顶部中心视频显示深度图,右上角显示 RGB 或语义注释。

SANPO-Real

SANPO-Real 是一个多视角视频数据集,包含用两个立体摄像机记录的 701 个会话:一个头戴式ZED Mini和一个胸戴式ZED-2i。也就是说,每个会话以 15 FPS 的速度录制四个RGB流。597 个会话以 2208x1242 像素的分辨率录制,其余会话以 1920x1080 像素的分辨率录制。每个会话大约持续 30 秒,录制的视频使用Zed 软件进行校正并以无损格式保存。每个会话都有高级属性注释、相机姿势轨迹、来自CREStereo的密集深度图和Zed SDK提供的稀疏深度图。部分会话具有每个实例时间一致的全景分割注释。

SANPO 数据收集系统用于收集现实世界的数据。 右图:(i) 带有 ZED 2i 和 ZED Mini 摄像头的背包,用于数据收集(底部);(ii) 背包内部,显示安装在 3D 打印容器上的 ZED 盒和电池组(中间);(iii) Android 应用程序显示来自 ZED 摄像头的实时画面(顶部)。 左图: 胸前安装的 ZED-2i 立体基线为 12 厘米,焦距为 2.1 毫米,头戴式 ZED Mini 基线为 6.3 厘米,焦距为 2.1 毫米。

时间一致的全景分割注释协议

SANPO 包含三十种不同的类别标签,包括各种表面(道路、人行道、路缘等)、围栏(护栏、墙壁、大门)、障碍物(电线杆、自行车架、树木)和生物(行人、骑手、动物)。收集这些类别的高质量注释是一项巨大的挑战。为了提供时间一致的全景分割注释,我们将每个视频分成 30 秒的子视频,并使用级联注释协议对每五帧(每个子视频 90 帧)进行注释。在每个阶段,我们要求注释者一次围绕五个互斥标签绘制边框。我们将同一张图像发送给不同的注释者,并进行尽可能多的阶段以收集掩码,直到分配所有标签,同时冻结先前子集中的注释并显示给注释者。我们使用AOT,这是一种机器学习模型,它通过在注释过程中从先前的帧中获取自动掩码,为注释者提供开始的掩码,从而减少注释工作量。 AOT 还使用手动注释的前帧和后帧推断中间帧的分割注释。总体而言,这种方法减少了注释时间,提高了边界精度,并确保了长达 30 秒的注释时间一致性。

时间一致的全景分割注释。分割蒙版的标题表明它是手动注释的还是 AOT 传播的。

SANPO-合成

由于硬件、算法和人为错误,现实世界数据的真实标签并不完美,而合成数据的真实标签近乎完美,并且可以自定义。我们与专门从事逼真合成数据生成的公司Parallel Domain合作,创建了 SANPO-Synthetic,这是一个高质量的合成数据集,用于补充 SANPO-Real。Parallel Domain 擅长为机器学习应用程序创建手工制作的合成环境和数据。得益于他们的工作,SANPO-Synthetic 将现实世界的拍摄条件与相机参数、位置和场景相匹配。

使用提供的注释(分割、深度和里程计)构建的合成会话的 3D 场景。顶部中央的视频显示深度图,右上角显示 RGB 或语义注释。

SANPO-Synthetic 是一个高质量的视频数据集,手工制作以匹配现实世界场景。它包含使用虚拟 Zed 摄像机录制的 1961 个会话,在胸部安装和头部安装的位置和校准之间均匀分布。这些视频是单眼的,仅从左侧镜头录制。这些会话的长度和 FPS(5、14.28 和 33.33)各不相同,以混合时间分辨率/长度权衡,并以无损格式保存。所有会话都具有精确的相机姿势轨迹、密集像素精确深度图和时间一致的全景分割蒙版。

SANPO-Synthetic 数据具有像素完美的注释,即使对于小而远的实例也是如此。这有助于开发具有挑战性的数据集,以模拟现实世界场景的复杂性。SANPO-Synthetic 和 SANPO-Real 也是彼此的直接替代品,因此研究人员可以研究域转移任务或在训练期间使用合成数据,而无需进行任何特定于域的假设。

真实场景和合成场景的均匀采样。

统计数据

语义类

我们设计 SANPO 分类法时,考虑到了以下几点:i) 人类以自我为中心的导航;ii) 目标是使其易于注释;iii) 尽可能接近现有的分割分类法。虽然 SANPO 分类法是考虑到人类以自我为中心的导航而构建的,但它可以轻松映射或扩展到其他以人类以自我为中心的场景理解应用程序。SANPO-Real 和 SANPO-Synthetic 都具有人们在以自我为中心的障碍物检测数据中会期望的各种对象,例如道路、建筑物、围栏和树木。SANPO-Synthetic 包括广泛分布的手工建模对象,而 SANPO-Real 则具有更多在图像中不经常出现的“长尾”类别,例如大门、公交车站或动物。

SANPO 分类法中各个类别的图像分布。

实例掩码

SANPO-Synthetic 和 SANPO-Real 的一部分也使用全景实例掩码进行注释,这些掩码将每个像素分配给一个类和实例 ID。由于它通常是人工标记的,因此 SANPO-Real 拥有大量帧,每帧通常少于 20 个实例。同样,SANPO-Synthetic 的虚拟环境提供了场景中大多数独特对象的像素精确分割。这意味着合成图像通常在每帧内包含更多实例。

当考虑每帧实例数时,合成数据每帧通常比 SANPO-Real 的标记部分具有更多的实例。

与其他数据集的比较

我们将 SANPO 与该领域的其他重要视频数据集进行比较,包括SCAND、MuSoHu、Ego4D、VIPSeg和Waymo Open。其中一些数据集用于机器人导航 (SCAND) 或自动驾驶 (Waymo) 任务。在这些数据集中,只有 Waymo Open 和 SANPO 同时具有全景分割和深度图,只有 SANPO 同时具有真实数据和合成数据。

与其他视频数据集的比较。对于立体视频与单声道视频,标有★的数据集为所有场景提供立体视频,标有☆的数据集为部分场景提供立体视频。对于深度图,★表示密集深度,而☆表示稀疏深度,例如来自低分辨率激光雷达扫描仪。

结论和未来工作

我们介绍了 SANPO,这是一个用于理解以人类为中心的场景的大规模且具有挑战性的视频数据集,其中包括具有密集预测注释的真实和合成样本。我们希望 SANPO 能够帮助研究人员为视障人士构建视觉导航系统并提高视觉场景理解能力。更多详细信息请参阅预印本和SANPO 数据集 GitHub 存储库。

致谢

该数据集是 Google 内部各个团队以及我们的外部合作伙伴 Parallel Domain 的众多个人辛勤工作的成果。

核心团队:Mikhail Sirotenko、Dave Hawkey、Sagar Waghmare、Kimberly Wilber、Xuan Yang、Matthew Wilson

Parallel Domain:Stuart Park、Alan Doucet、Alex Valence-Lanoue 和 Lars Pandikow。

我们还要感谢以下团队成员:Hartwig Adam、Huisheng Wang、Lucian Ionita、Nitesh Bharadwaj、Suqi Liu、Stephanie Debats、Cattalyya Nuengsigkapian、Astuti Sharma、Alina Kuznetsova、Stefano Pellegrini、Yiwen Luo、Lily Pagan、Maxine Deines、Alex Siegman、Maura O'Brien、Rachel Stigler、Bobby Tran、Supinder Tohra、Umesh Vashisht、Sudhindra Kopalle 和 Reet Bhatia。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论