移动实时视频分割

lixia01 · 发表于 2024-12-13 23:30:08

视频分割是一种广泛使用的技术，它使电影导演和视频内容创作者能够将场景的前景与背景分开，并将它们视为两个不同的视觉层。通过修改或替换背景，创作者可以传达特定的情绪，将自己带到一个有趣的地方或增强信息的影响力。然而，这一操作传统上是一个耗时的手动过程（例如，艺术家对每一帧进行转描）或需要在带有绿屏的工作室环境中进行实时背景去除（一种称为色度键控的技术）。为了让用户能够在取景器中实时创建这种效果，我们设计了一种适用于手机的新技术。今天，我们很高兴通过将这项技术集成到故事
中，将精确、实时、设备上的移动视频分割带入 YouTube 应用。故事目前处于有限测试阶段，是 YouTube 专为 YouTube 创作者设计的新型轻量级视频格式。我们的新分割技术允许创作者替换和修改背景，无需专门的设备即可轻松提高视频的制作价值。
YouTube 故事中的神经网络视频分割。
为了实现这一目标，我们利用机器学习通过卷积神经网络解决语义分割任务。具体来说，我们设计了适合手机的网络架构和训练程序，重点关注以下要求和约束：
移动解决方案应轻量级，并且运行速度至少比现有的最先进照片分割模型快 10-30 倍。对于实时推理，此类模型需要以每秒 30 帧的速度提供结果。
视频模型应该利用时间冗余（相邻帧看起来相似）并表现出时间一致性（相邻结果应该相似）
高质量的分割结果需要高质量的注释。
数据集
为了为我们的机器学习管道提供高质量的数据，我们注释了数万张图像，这些图像捕捉了各种前景姿势和背景设置。注释包括头发、眼镜、脖子、皮肤、嘴唇等前景元素的像素精确位置，以及一个通用背景标签，实现了人类注释者质量 98% 的交叉验证结果。
训练流程
在视频分割中，我们需要实现帧与帧之间的时间连续性，同时还要考虑时间不连续性，例如人们突然出现在摄像头的视野中。为了训练我们的模型以稳健地处理这些用例，我们以多种方式转换每张照片的注释基本事实，并将其用作前一帧蒙版：
清空上一个掩码- 训练网络正确处理第一帧和场景中的新物体。这模拟了某人出现在相机画面中的情况。
仿射变换的地面实况掩码- 微小变换训练网络传播并调整到前一帧掩码。重大变换训练网络理解不充分的掩码并将其丢弃。
变换后的图像- 我们对原始图像实施薄板样条平滑，以模拟快速的相机移动和旋转。
我们的实时视频分割正在运行。
网络架构
通过修改后的输入/输出，我们在标准沙漏分割网络架构上进行了以下改进：
我们使用步幅大于 4 的大卷积核来检测高分辨率 RGB 输入帧上的对象特征。通道数较少的层（RGB 输入就是这种情况）的卷积成本相对较低，因此在这里使用大卷积核几乎不会影响计算成本。
为了提高速度，我们积极使用大步幅进行下采样，并结合U-Net等跳跃连接，以在上采样期间恢复低级特征。对于我们的分割模型，与不使用跳跃连接相比，此技术可显著提高 5% IOU。
带有跳过连接的沙漏分割网络。
为了进一步提高速度，我们优化了默认的ResNet瓶颈。在文献中，作者倾向于将网络中间的通道压缩四倍（例如，通过使用 64 个不同的卷积核将 256 个通道减少到 64 个）。然而，我们注意到，人们可以更积极地压缩 16 倍或 32 倍，而不会显著降低质量。
具有较大挤压系数的 ResNet 瓶颈。
为了改进和提高边缘的准确性，我们在网络顶部添加了几个DenseNet层，其分辨率与神经抠图类似。该技术将整体模型质量提高了 0.5% IOU，但分割的感知质量得到了显著改善。
这些修改的最终结果是，我们的网络在移动设备上运行速度非常快，在 iPhone 7 上实现 100+ FPS，在 Pixel 2 上实现 40+ FPS，并且具有高精度（在我们的验证数据集上实现 94.8% IOU），在 YouTube 故事中提供各种流畅的运行和响应效果。
我们的近期目标是利用 YouTube 故事中的有限展示来测试我们在第一组效果上的技术。随着我们改进分割技术并将其扩展到更多标签，我们计划将其集成到 Google 更广泛的增强现实服务中。
致谢
感谢与我们一起致力于技术和此次发布的团队成员：Andrey Vakunov、Yury Kartynnik、Artsiom Ablavatski、Ivan Grishchenko、Matsvei Zhdanovich、Andrei Kulik、Camillo Lugaresi、John Kim、Ryan Bolyard、Wendy Huang、Michael Chang、Aaron La Lau、Willi Geiger、Tomer Margolin、John Nack 和 Matthias Grundmann。

		自动登录	找回密码
密码			立即注册