找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 65|回复: 0

利用机器学习实现实时 AR 自我表达

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-11-22 13:46:42 | 显示全部楼层 |阅读模式
增强现实(AR) 通过将数字内容和信息叠加在物理世界之上,可帮助您充分利用所见内容。例如,Google 地图即将推出的 AR 功能可让您通过叠加在现实世界之上的方向找到路线。借助Playground(Pixel 相机中的创意模式),您可以使用 AR 以不同的方式看世界。借助最新发布的YouTube Stories和ARCore的新增强人脸 API,您可以在自己的自拍照中添加动画面具、眼镜、3D 帽子等对象!
实现这些 AR 功能的关键挑战之一是将虚拟内容正确地锚定到现实世界;这个过程需要一套独特的感知技术,能够追踪每个微笑、皱眉或假笑时高度动态的表面几何形状。
我们的 3D 网格及其实现的一些效果
为了实现这一切,我们采用机器学习 (ML) 来推断近似的 3D 表面几何形状以实现视觉效果,只需要一个摄像头输入,而无需专用的深度传感器。这种方法可以实时使用 AR 效果,使用TensorFlow Lite进行移动 CPU 推理或其新的移动 GPU 功能(如果可用)。这项技术与YouTube Stories 的新创作者效果所采用的技术相同,也可通过最新版 ARCore SDK和ML Kit 人脸轮廓检测 API供更广泛的开发者社区使用。
用于自拍 AR 的 ML 管道
我们的 ML 管道由两个协同工作的实时深度神经网络模型组成:一个对整幅图像进行操作并计算人脸位置的检测器,以及一个对这些位置进行操作并通过回归预测近似表面几何形状的通用 3D 网格模型。准确裁剪人脸可大大减少对常见数据增强的需要,例如由旋转、平移和缩放变化组成的仿射变换。相反,它允许网络将大部分容量用于坐标预测精度,这对于实现虚拟内容的正确锚定至关重要。
一旦感兴趣的位置被裁剪,网格网络一次只应用于单个帧,使用窗口平滑来减少面部静止时的噪音,同时避免在大幅移动期间出现滞后。
我们的 3D 网格实际作用
对于我们的 3D 网格,我们采用了迁移学习并训练了一个具有多个目标的网络:该网络同时预测合成渲染数据上的 3D 网格坐标和注释的真实世界数据(类似于MLKit提供的数据)上的 2D 语义轮廓。由此产生的网络不仅在合成数据上为我们提供了合理的
3D 网格预测,而且在真实世界数据上也提供了合理的预测。所有模型都使用来自地理分散的数据集的数据进行训练,随后在平衡、多样化的测试集上进行定性和定量性能测试。3D 网格网络接收裁剪的视频帧作为输入。它不依赖于额外的深度输入,因此也可以应用于预先录制的视频。该模型输出 3D 点的位置,以及面部在输入中存在并合理对齐的概率。一种常见的替代方法是预测每个地标的 2D 热图,但它不适合深度预测,并且对于如此多的点具有很高的计算成本。
我们通过迭代引导和细化预测进一步提高了模型的准确性和稳健性。这样,我们就可以扩大数据集,以适应越来越具有挑战性的情况,例如鬼脸、斜角和遮挡。数据集增强技术还扩展了可用的地面真实数据,提高了模型对相机缺陷或极端照明条件等伪影的适应能力。
数据集扩展和改进流程
硬件定制推理
我们使用TensorFlow Lite进行设备上神经网络推理。新推出的 GPU 后端加速可在可用的情况下提高性能,并显著降低功耗。此外,为了覆盖广泛的消费硬件,我们设计了具有不同性能和效率特征的各种模型架构。较轻网络最重要的区别是残差块布局和可接受的输入分辨率(最轻模型中的 128x128 像素,最复杂的模型中的 256x256)。我们还改变了层数和子采样率(输入分辨率随网络深度下降的速度)。
每帧推理时间:CPU 与 GPU
这些优化的结果是使用更轻的模型实现了大幅加速,同时 AR 效果质量的下降最小。
这些努力的最终结果是通过以下方式在 YouTube、ARCore 和其他客户端中为用户提供令人信服、逼真的自拍 AR 效果体验:
通过环境映射模拟光反射,实现眼镜的真实渲染
通过将虚拟物体阴影投射到脸部网格上来实现自然光照
YouTube Stories 包含创作者效果,例如基于我们的 3D 网格的逼真虚拟眼镜
模拟嘴唇上的镜面反射和
使用亮度感知材质进行脸部彩绘
我们很高兴与创作者、用户和开发者分享这项新技术,他们可以通过下载最新的 ARCore SDK立即使用这项新技术。未来,我们计划将这项技术扩展到更多 Google 产品。
致谢
我们要感谢 Yury Kartynnik、Valentin Bazarevsky、Andrey Vakunov、Siargey Pisarchyk、Andrei Tkachenka 和 Matthias Grundmann 合作开发当前的网格技术;感谢 Nick Dufour、Avneesh Sud 和 Chris Bregler 基于参数模型开发早期版本的技术;感谢 Kanstantsin Sokal、Matsvei Zhdanovich、Gregory Karpiak、Alexander Kanaukou、Suril Shah、Buck Bourdon、Camillo Lugaresi、Siarhei Kazakou 和 Igor Kibalchich 构建 ML 管道以实现令人印象深刻的效果;感谢 Aleksandra Volf 和注释团队的勤奋和对完美的执着; Andrei Kulik、Juhyun Lee、Raman Sarokin、Ekaterina Ignasheva、Nikolay Chirkov 和 Yury Pisarchyk 对以移动 GPU 为中心的网络架构优化进行了仔细的基准测试并提供了见解。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 10:53 , Processed in 0.078891 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表