找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 42|回复: 0

Pixel 3 的最佳拍摄效果

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-3 21:49:49 | 显示全部楼层 |阅读模式
人生充满了有意义的瞬间 — — 从孩子迈出的第一步到即兴的欢呼雀跃 — — 人们都希望用照片将这些瞬间保留下来。然而,由于这些瞬间往往难以预测,错过完美拍摄是智能手机相机用户每天面临的一个令人沮丧的问题。利用开发Google Clips的经验,我们想知道能否为 Pixel 3 相机开发新技术,让每个人每次都能拍出完美的照片。Top
Shot是最近随Pixel 3推出的一项新功能,可帮助您在按下快门按钮时自动精准地捕捉珍贵瞬间。Top Shot 使用计算机视觉技术在设备上实时保存和分析按下快门前后的图像帧,并推荐几张替代的高质量HDR+照片。
捕捉多个瞬间
当用户打开 Pixel 3 相机应用时,Top Shot 会默认启用,通过分析按下快门前后拍摄的图像来帮助捕捉完美瞬间。每张图像都会实时且完全在设备上分析一些定性特征(例如,拍摄对象是否在微笑),以保护隐私并最大限度地减少延迟。每张图像还与其他信号相关联,例如图像的光流
、曝光时间和陀螺仪传感器数据,以形成用于评分帧质量的输入特征。 当您按下快门按钮时,Top Shot 会在按下快门前后 1.5 秒内捕捉最多 90 张图像,并选择最多两张备选照片以高分辨率保存 - 原始快门帧和高分辨率备选照片供您查看(您也可以根据需要查看其他低分辨率帧)。首先处理并保存快门帧。然后保存最佳备选照片。 Pixel 3 上的Google Visual Core用于将这些顶级替代镜头处理为 HDR+ 图像,且具有极少量的额外延迟,并嵌入到Motion Photo文件中。
鉴于 Top Shot 在相机中作为后台进程运行,因此它必须具有非常低的功耗。因此,Top Shot 使用基于硬件加速的MobileNet单次检测器(SSD)。此类优化模型的执行也受到功耗和热限制的限制。
识别最佳时刻
当我们着手了解如何让人们用相机捕捉最佳时刻时,我们关注三个关键属性:1) 功能性品质,例如照明,2) 客观属性(拍摄对象的眼睛睁开了吗?他们在笑吗?),以及 3) 主观品质,例如情绪表达。我们设计了一个计算机视觉模型来识别这些属性,同时以低延迟、设备端模式运行。
在我们的开发过程中,我们从原始的 MobileNet 模型开始,并着手针对 Top Shot 进行优化,最终得到一个在我们的准确性、延迟和功耗权衡约束内运行的定制架构。我们的神经网络设计在早期层检测低级视觉属性,例如主体是否模糊,然后将额外的计算和参数专用于更复杂的客观属性,例如主体的眼睛是否睁开,以及主观属性,例如是否有愉悦或惊讶的情绪表达。我们使用知识蒸馏对大量不同的面部图像进行训练,并在训练和推理过程中使用量化。
然后,我们采用分层广义加性模型(GAM) 来提供面部质量分数,并将它们组合成加权平均“框架面部”分数。该模型使我们很容易解释和识别成功或失败的确切原因,从而实现快速迭代以提高我们属性模型的质量和性能。自由参数的数量约为数十个,因此我们可以使用 Google 的黑盒优化器Vizier对这些参数进行优化,并与影响选择质量的任何其他参数协同优化。
框架评分模型
虽然 Top Shot 优先考虑面部分析,但有时面部并不是主要主体。为了处理这些用例,我们在整体帧质量得分中加入了以下附加分数:
主体运动显著性分数——在 ISP 中估计当前帧和前一帧之间的低分辨率光流,以确定场景中是否存在显著的物体运动。
全局运动模糊分数— 根据相机运动和曝光时间估算。相机运动是根据陀螺仪和 OIS(光学图像稳定)的传感器数据计算得出的。
“3A” 分数——自动曝光、自动对焦和自动白平衡的状态,也会被考虑。
所有单项分数均用于训练一个模型,该模型可预测总体质量分数,该分数与人类评分者的帧偏好相匹配,从而最大限度地提高端到端的产品质量。
端到端质量和公平性
上述大部分组件均单独评估其准确性然而,Top Shot 的要求特别具有挑战性,因为它是在 Pixel Camera 中实时运行的。此外,我们需要确保所有这些信号都结合在一个系统中并获得令人满意的结果。这意味着我们需要根据用户认为的“最佳照片”来衡量我们的预测。
为了测试这一点,我们收集了数百名志愿者的数据,以及他们对哪些帧(最多 90 帧!)看起来最好的意见。这个捐赠的数据集涵盖了许多典型用例,例如肖像、自拍、动作、风景等。Top
Shot 提供的许多 3 秒短片都有不止一张好照片,因此我们必须设计质量指标来处理这个问题。我们使用了一些传统精确度和召回率的修改版本、一些经典排名指标(例如平均倒数排名)以及一些专门为 Top Shot 任务设计的指标作为我们的目标。除了这些指标之外,我们还调查了在开发过程中发现的图像质量问题的原因,从而在避免模糊、更好地处理多个面孔等方面取得了进步。通过这样做,我们能够将模型引导到人们可能高度评价的一组选择上。
重要的是,我们测试了 Top Shot 系统的公平性,以确保我们的产品能够为非常广泛的用户提供一致的体验。我们在几个不同的人群子群(基于性别、年龄、种族等)上评估了 Top Shot 中使用的每个信号的准确性,并测试了这些子群中每个信号的准确性。
结论
Top Shot 只是 Google 如何利用优化的硬件和尖端机器学习来提供有用工具和服务的一个例子。我们希望您会发现此功能很有用,并且我们致力于进一步提高手机摄影的能力!
致谢
这篇文章体现了 Google 工程师、研究科学家和其他人共同的努力,其中包括:Ari Gilder、Aseem Agarwala、Brendan Jou、Chris Breithaupt、David Karam、Eric Penner、Farooq Ahmad、Henri Astre、Hillary Strickland、John Zhang、Marius Renn、Matt Bridges、Maxwell Collins、Navid Shiee、Ryan Gordon、Sarah Clinckemaillie、Shu Zhang、Vivek Kesarwani、Xuhui Jia、Yukun Zhu 和 Yuzo Watanabe。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-26 19:57 , Processed in 0.072873 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表