开源项目指南:计算机视觉无障碍技术平台

0IGHR4O43L{5XNJ_$5V%W86.png

两年前,我们宣布了 Project Guideline ,这是 Google Research 与Guiding Eyes for the Blind合作推出的一项计划,旨在帮助有视力障碍(例如失明和视力低下)的人独立行走、慢跑和跑步。Project Guideline 仅使用 Google Pixel 手机和耳机,即可利用设备上的机器学习 (ML) 引导用户沿着标有画线的户外路径行走。该技术已在世界各地进行测试,甚至在2020 年东京残奥会开幕式上进行了演示。

自最初发布公告以来,我们着手改进 Project Guideline,通过嵌入新功能(例如障碍物检测和高级路径规划),让用户安全可靠地应对更复杂的场景(例如急转弯和附近的行人)。早期版本采用简单的逐帧图像分割,检测路径线相对于图像帧的位置。这足以让用户定位到线路,但提供的周围环境信息有限。改进导航信号(例如障碍物和即将到来的转弯警报)需要更好地理解和绘制用户的环境。为了解决这些挑战,我们构建了一个平台,可用于无障碍空间及其他领域的各种空间感知应用程序。

今天,我们宣布Project Guideline 开源发布,任何人都可以使用它来改进和构建新的无障碍体验。该版本包括核心平台的源代码、 Android 应用程序、预训练的ML 模型和3D 模拟框架。

系统设计

主要用例是 Android 应用程序,但我们希望能够以可重现的方式在各种环境中运行、测试和调试核心逻辑。这促使我们使用 C++ 设计和构建系统,以便与MediaPipe和其他核心库紧密集成,同时仍然能够使用 Android NDK与 Android 集成。

在底层,Project Guideline 使用ARCore来估计用户在路线导航时的位置和方向。基于DeepLabV3+框架构建的分割模型处理每个相机帧以生成指南的二进制掩码(有关更多详细信息,请参阅之前的博客文章)。然后使用 ARCore 提供的相机姿势和镜头参数(内在参数)将分割指南上的点从图像空间坐标投影到世界空间地面平面上。由于每帧都贡献了不同的线路视图,因此世界空间点会在多帧上聚合以构建真实世界指南的虚拟映射。系统对指南世界空间坐标执行分段曲线近似,以构建时空一致的轨迹。这允许在用户沿着路径前进时细化估计的线路。

项目指南构建了指南的 2D 地图,聚合每帧中检测到的点(红色),以便在跑步者沿着路径前进时构建状态表示(蓝色)。

控制系统会根据用户当前的位置、速度和方向,动态地选择前方一定距离的线路上的目标点。然后,系统会向用户发出音频反馈信号,让用户调整方向,以与即将到来的线路段相一致。通过使用跑步者的速度矢量而不是摄像头方向来计算导航信号,我们可以消除跑步过程中常见的摄像头不规则移动所造成的噪音。我们甚至可以在用户不在摄像头视野范围内时将用户导航回线路,例如,如果用户转弯时超出了范围。这是可能的,因为 ARCore 会继续跟踪摄像头的姿势,这可以与从之前的摄像头图像推断出的状态线路图进行比较。

项目指南还包括障碍物检测和避障功能。ML 模型用于从单个图像估计深度。为了训练这个单目深度模型,我们使用了SANPO,这是一个由内部整理的城市、公园和郊区环境户外图像的大型数据集。该模型能够检测各种障碍物的深度,包括人、车辆、柱子等。深度图被转换成 3D 点云,类似于线分割过程,并用于检测用户路径上障碍物的存在,然后通过音频信号提醒用户。

Project Guideline 使用单目深度 ML 模型构建环境的 3D 点云,以检测路径上的潜在障碍物并提醒用户。

我们实施了基于AAudio API 的 低延迟音频系统,以便为用户提供导航声音和提示。项目指南中提供了多个声音包,包括使用Resonance Audio API 的空间声音实现。这些声音包是由 Google 的声音研究人员和工程师团队开发的,他们设计并测试了许多不同的声音模型。这些声音结合了声像、音调和空间化,引导用户沿着线路行驶。例如,向右转的用户可能会听到左耳发出哔哔声,表示线路在左侧,并且频率会增加,表示路线修正幅度更大。如果用户进一步转向,可能会听到高音调警告声,表示正在接近路径边缘。此外,如果用户偏离线路太远、检测到异常或系统未能提供导航信号,系统始终会发出清晰的“停止”音频提示。

Project Guideline 专为搭载Google Tensor芯片 的 Google Pixel 手机打造。Google Tensor 芯片使优化的 ML 模型能够在设备上运行,性能更高、功耗更低。这对于以最小的延迟向用户提供实时导航指令至关重要。在 Pixel 8 上,在张量处理单元(TPU) 而不是 CPU 上运行深度模型时,延迟时间缩短了 28 倍,与 GPU 相比,延迟时间缩短了 9 倍。

测试与模拟

Project Guideline 包含一个模拟器,可在虚拟环境中快速测试和制作系统原型。从机器学习模型到音频反馈系统,所有内容都在模拟器中本地运行,无需设置所有硬件和物理环境即可获得完整的 Project Guideline 体验。

项目指南模拟器的屏幕截图。

未来方向

为了推动这项技术的发展,WearWorks已成为早期采用者,并与 Project Guideline 合作整合其专利触觉导航体验,利用触觉反馈和声音来引导跑步者。WearWorks 开发触觉技术已有 8 年多,之前曾帮助第一位盲人马拉松运动员在没有视力帮助的情况下完成纽约马拉松。我们希望这样的整合将带来新的创新,让世界变得更加便利。

项目指南团队还致力于利用移动 ML 技术的最新进展(例如ARCore Scene Semantics API)彻底消除油漆线,该技术可以识别人行道、建筑物和户外场景中的其他物体。我们邀请无障碍社区在此技术的基础上进行构建和改进,同时探索其他领域的新用例。

致谢

许多人都参与了 Project Guideline 及其背后技术的开发。我们要感谢 Project Guideline 团队成员:Dror Avalon、Phil Bayer、Ryan Burke、Lori Dooley、Song Chun Fan、Matt Hall、Amélie Jean-aimée、Dave Hawkey、Amit Pitaru、Alvin Shi、Mikhail Sirotenko、Sagar Waghmare、John Watkinson、Kimberly Wilber、Matthew Willson、Xuan Yang、Mark Zarich、Steven Clark、Jim Coursey、Josh Ellis、Tom Hoddes、Dick Lyon、Chris Mitchell、Satoru Arao、Yoojin Chung、Joe Fry、Kazuto Furuichi、Ikumi Kobayashi、Kathy Maruyama、Minh Nguyen、Alto Okamura、Yosuke Suzuki 和 Bryan Tanaka。感谢 ARCore 贡献者:Ryan DuToit、Abhishek Kar 和 Eric Turner。感谢 Alec Go、Jing Li、Liviu Panait、Stefano Pellegrini、Abdullah Rashwan、Lu Wang、Qifei Wang 和 Fan Yang 提供的 ML 平台支持。我们还要感谢 Hartwig Adam、Tomas Izo、Rahul Sukthankar、Blaise Aguera y Arcas 和 Huisheng Wang 提供的领导支持。特别感谢我们的合作伙伴 Guiding Eyes for the Blind 和 Achilles International。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论