开发用于视频会议的实时自动手语检测技术

视频会议应该对所有人都开放,包括使用手语交流的用户。然而,由于大多数视频会议应用程序将窗口切换为大声说话的用户,因此手语使用者很难“发言”,从而无法轻松有效地进行交流。在视频会议中实现实时手语检测是一项挑战,因为应用程序需要使用大量视频源作为输入来执行分类,这使得任务的计算量很大。由于这些挑战,对手语检测的研究有限。

在SLRTP2020上提出并在ECCV2020上演示的 “使用人体姿势估计的实时手语检测”中,我们提出了一种实时手语检测模型,并演示了如何使用它为视频会议系统提供一种机制来识别正在签名的人是主动说话者。

1729691748597.jpg

以色列手语翻译 Maayan Gazuli 演示手语检测系统。

我们的模型

为了为各种视频会议应用提供实时工作解决方案,我们需要设计一个轻量级模型,使其易于“即插即用”。之前在客户端集成视频会议应用模型的尝试证明了轻量级模型的重要性,该模型消耗更少的 CPU 周期,以最大限度地减少对通话质量的影响。为了降低输入维度,我们从视频中分离出模型所需的信息,以便对每一帧进行分类。

由于手语涉及用户的身体和手,我们首先运行姿势估计模型PoseNet。这将输入从整个高清图像大大减少到用户身体上的一小组标志,包括眼睛、鼻子、肩膀、手等。我们使用这些标志来计算帧到帧的光流,这量化了用户运动以供模型使用,而无需保留用户特定信息。每个姿势都根据人的肩膀宽度进行归一化,以确保模型能够关注到距离摄像头一定距离范围内打手势的人。然后,光流在传递给模型之前根据视频的帧速率进行归一化。

为了测试这种方法,我们使用了德国手语语料库(DGS),其中包含人们手语的长视频,并包括指示手语发生在哪些帧的跨度注释。作为一个简单的基线,我们训练了一个线性回归模型,使用光流数据预测一个人何时在手语。这个基线达到了大约 80% 的准确率,每帧仅使用约 3μs(0.000003 秒)的处理时间。通过将前 50 帧的光流作为背景纳入线性模型,它能够达到 83.4%。

为了推广上下文的使用,我们使用了长短期记忆(LSTM) 架构,该架构包含之前时间步骤的记忆,但没有回溯。使用单层 LSTM,然后是线性层,该模型的准确率高达 91.5%,每帧的处理时间为 3.5 毫秒(0.0035 秒)。

概念验证

一旦我们有了可运行的手语检测模型,我们就需要设计一种方法来使用它来触发视频会议应用程序中的当前发言者功能。我们开发了一个轻量级的实时手语检测 Web 演示,它可以连接到各种视频会议应用程序,并且可以在用户打手势时将其设置为“发言者”。此演示利用使用tf.js在浏览器中运行的PoseNet快速人体姿势估计和手语检测模型,这使其能够实时可靠地工作。

当手语检测模型确定用户正在打手势时,它会通过虚拟音频线发送超声波音频,任何视频会议应用程序都可以检测到该音频,就好像打手势的用户正在“说话”。音频以 20kHz 的频率传输,这通常超出了人类的听力范围。由于视频会议应用程序通常会将音频“音量”检测为说话,而不仅仅是检测语音,因此这会欺骗应用程序,使其认为用户正在说话。

1729691526272.jpg

手语检测演示以网络摄像头的视频源作为输入,并在检测到用户正在打手语时通过虚拟麦克风传输音频。

您现在就可以试用我们的实验性演示!默认情况下,该演示充当手语检测器。训练代码和模型以及Web 演示 源代码可在 GitHub 上找到。

演示

在下面的视频中,我们演示了如何使用该模型。请注意左上角的黄色图表,它反映了模型对检测到该活动确实是手语的信心。当用户打手势时,图表值上升到接近 100,而当她停止打手势时,图表值下降到零。这个过程是实时发生的,每秒 30 帧,这是所用相机的最大帧速率。

用户反馈

为了更好地了解演示在实践中的效果,我们进行了一项用户体验研究,要求参与者在视频会议中使用我们的实验演示,并像往常一样通过手语进行交流。他们还被要求互相打手势,并为正在说话的参与者打手势,以测试说话者切换行为。参与者积极响应,表示手语被检测到并被视为可听见的语音,并且演示成功识别了手语与会者并触发了会议系统的音频计图标以将焦点吸引到手语与会者身上。

结论

我们相信视频会议应用程序应该对每个人都开放,并希望这项工作是朝着这个方向迈出的有意义的一步。我们已经展示了如何利用我们的模型让签名者更方便地使用视频会议。

致谢

Amit Moryossef、Ioannis Tsochantaridis、Roee Aharoni、Sarah Ebling、Annette Rios、Srini Narayanan、George Sung、Jonathan Baccash、Aidan Bryant、Pavithra Ramasamy 和 Maayan Gazuli

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论