找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 32|回复: 0

移动实时视频分割

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-13 23:30:08 | 显示全部楼层 |阅读模式
视频分割是一种广泛使用的技术,它使电影导演和视频内容创作者能够将场景的前景与背景分开,并将它们视为两个不同的视觉层。通过修改或替换背景,创作者可以传达特定的情绪,将自己带到一个有趣的地方或增强信息的影响力。然而,这一操作传统上是一个耗时的手动过程(例如,艺术家对每一帧进行转描)或需要在带有绿屏的工作室环境中进行实时背景去除(一种称为色度键控的技术)。为了让用户能够在取景器中实时创建这种效果,我们设计了一种适用于手机的新技术。今天,我们很高兴通过将这项技术集成到故事
中,将精确、实时、设备上的移动视频分割带入 YouTube 应用。故事目前处于有限测试阶段,是 YouTube 专为 YouTube 创作者设计的新型轻量级视频格式。我们的新分割技术允许创作者替换和修改背景,无需专门的设备即可轻松提高视频的制作价值。
YouTube 故事中的神经网络视频分割。
为了实现这一目标,我们利用机器学习通过卷积神经网络解决语义分割任务。具体来说,我们设计了适合手机的网络架构和训练程序,重点关注以下要求和约束:
移动解决方案应轻量级,并且运行速度至少比现有的最先进照片分割模型快 10-30 倍。对于实时推理,此类模型需要以每秒 30 帧的速度提供结果。
视频模型应该利用时间冗余(相邻帧看起来相似)并表现出时间一致性(相邻结果应该相似)
高质量的分割结果需要高质量的注释。
数据集
为了为我们的机器学习管道提供高质量的数据,我们注释了数万张图像,这些图像捕捉了各种前景姿势和背景设置。注释包括头发、眼镜、脖子、皮肤、嘴唇等前景元素的像素精确位置,以及一个通用背景标签,实现了人类注释者质量 98% 的交叉验证结果。
训练流程
在视频分割中,我们需要实现帧与帧之间的时间连续性,同时还要考虑时间不连续性,例如人们突然出现在摄像头的视野中。为了训练我们的模型以稳健地处理这些用例,我们以多种方式转换每张照片的注释基本事实,并将其用作前一帧蒙版:
清空上一个掩码- 训练网络正确处理第一帧和场景中的新物体。这模拟了某人出现在相机画面中的情况。
仿射变换的地面实况掩码- 微小变换训练网络传播并调整到前一帧掩码。 重大变换训练网络理解不充分的掩码并将其丢弃。
变换后的图像- 我们对原始图像实施薄板样条平滑,以模拟快速的相机移动和旋转。
我们的实时视频分割正在运行。
网络架构
通过修改后的输入/输出,我们在标准沙漏分割网络架构上进行了以下改进:
我们使用步幅大于 4 的大卷积核来检测高分辨率 RGB 输入帧上的对象特征。通道数较少的层(RGB 输入就是这种情况)的卷积成本相对较低,因此在这里使用大卷积核几乎不会影响计算成本。
为了提高速度,我们积极使用大步幅进行下采样,并结合U-Net等跳跃连接,以在上采样期间恢复低级特征。对于我们的分割模型,与不使用跳跃连​​接相比,此技术可显著提高 5% IOU。
带有跳过连接的沙漏分割网络。
为了进一步提高速度,我们优化了默认的ResNet瓶颈。在文献中,作者倾向于将网络中间的通道压缩四倍(例如,通过使用 64 个不同的卷积核将 256 个通道减少到 64 个)。然而,我们注意到,人们可以更积极地压缩 16 倍或 32 倍,而不会显著降低质量。
具有较大挤压系数的 ResNet 瓶颈。
为了改进和提高边缘的准确性,我们在网络顶部添加了几个DenseNet层,其分辨率与神经抠图类似。该技术将整体模型质量提高了 0.5% IOU,但分割的感知质量得到了显著改善。
这些修改的最终结果是,我们的网络在移动设备上运行速度非常快,在 iPhone 7 上实现 100+ FPS,在 Pixel 2 上实现 40+ FPS,并且具有高精度(在我们的验证数据集上实现 94.8% IOU),在 YouTube 故事中提供各种流畅的运行和响应效果。
我们的近期目标是利用 YouTube 故事中的有限展示来测试我们在第一组效果上的技术。随着我们改进分割技术并将其扩展到更多标签,我们计划将其集成到 Google 更广泛的增强现实服务中。
致谢
感谢与我们一起致力于技术和此次发布的团队成员:Andrey Vakunov、Yury Kartynnik、Artsiom Ablavatski、Ivan Grishchenko、Matsvei Zhdanovich、Andrei Kulik、Camillo Lugaresi、John Kim、Ryan Bolyard、Wendy Huang、Michael Chang、Aaron La Lau、Willi Geiger、Tomer Margolin、John Nack 和 Matthias Grundmann。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 09:33 , Processed in 0.078986 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表