实时字幕中的文本稳定性建模与改进

DH2LXWR5)8KR5Y_[UM~WAGT.png

自动语音识别 (ASR) 技术使对话更加易于理解,远程会议软件、移动应用程序和头戴式显示器中都配有实时字幕。但是,为了保持实时响应,实时字幕系统通常会显示临时预测,并在收到新话语时进行更新。这可能会导致文本不稳定(之前显示的文本更新时出现“闪烁”,如下方视频左侧的字幕所示),从而可能因分心、疲劳和难以跟上对话而损害用户的阅读体验。

在ACM CHI 2023上发表的 “实时字幕中文本稳定性的建模和改进”中,我们通过一些关键贡献将文本稳定性问题形式化。首先,我们采用基于视觉的闪烁指标来量化文本不稳定性,该指标使用亮度对比度和离散傅里叶变换。其次,我们还引入了一种稳定性算法,通过标记对齐、语义合并和流畅动画来稳定实时字幕的渲染。最后,我们进行了一项用户研究 (N=123),以了解观众对实时字幕的体验。我们的统计分析表明,我们提出的闪烁指标与观众的体验之间存在很强的相关性。此外,它表明我们提出的稳定技术显着改善了观众的体验(例如,上面视频右侧的字幕)。

原始 ASR 字幕与稳定字幕

公制

受前人研究的启发,我们提出了一种基于闪烁的度量标准来量化文本稳定性并客观评估实时字幕系统的性能。具体来说,我们的目标是量化灰度实时字幕视频中的闪烁。我们通过比较构成视频的各个帧(下图中的帧)之间的亮度差异来实现这一目标。亮度的较大视觉变化是显而易见的(例如,在下图中添加了单词“明亮”),但细微的变化(例如,从“...这个金色。不错……”更新为“...这个。金色不错”)可能难以让读者辨别。但是,将亮度变化转换为其构成频率可以揭示明显和细微的变化。

因此,对于每对连续帧,我们使用离散傅里叶变换将亮度差异转换为其构成频率。然后,我们对每个低频和高频求和,以量化该对中的闪烁。最后,我们对所有帧对求平均值,以获得每个视频的闪烁。

例如,我们可以看到,下面两个相同的帧(顶部)产生的闪烁为 0,而两个不相同的帧(底部)产生的闪烁不为零。值得注意的是,度量值越高,表示视频中的闪烁越多,因此,与度量值越低相比,用户体验更差。

两个相同帧之间的闪烁度量的说明。

两个不相同帧之间的闪烁的图示。

稳定性算法

为了提高实时字幕的稳定性,我们提出了一种算法,该算法将已渲染的标记序列(例如下图中的“上一个”)和新的 ASR 预测序列作为输入,并输出更新的稳定文本(例如下面的“更新的文本(已稳定)”)。它在决定何时以及如何生成稳定的更新文本时,会同时考虑自然语言理解 (NLU) 方面以及用户体验的人体工程学方面(显示、布局等)。具体来说,我们的算法执行标记对齐、语义合并和流畅的动画来实现这一目标。在下文中,标记被定义为 ASR 生成的单词或标点符号。

我们展示(a)之前已经渲染的文本、(b)没有使用合并算法的更新文本的基线布局,以及(c)由我们的稳定算法生成的更新文本。

我们的算法通过首先识别三类变化(下面以红色、绿色和蓝色突出显示)来解决生成稳定更新文本的难题:

红色:在先前呈现的字幕末尾添加标记(例如,“怎么样”)。

绿色:在已呈现的字幕中间添加/删除标记。

B1:添加标记(例如“I”和“friends”)。这些标记可能会或可能不会影响字幕的整体理解,但可能会导致布局变化。这种布局变化在实时字幕中是不可取的,因为它们会导致严重的抖动和较差的用户体验。这里“I”不会增加理解力,但“friends”会增加。因此,平衡更新与稳定性非常重要,尤其是对于 B1 类标记。

B2:删除标记,例如,在更新后的句子中删除“in”。

蓝色:对标记进行重新字幕:这包括可能会或可能不会对字幕的整体理解产生影响的标记编辑。

C1:专有名词“disney land”更新为“Disneyland”。

C2:语法简写如“it's”更新为“It was”。

先前显示的文本和更新的文本之间的变化类别。

对齐、合并和平滑

为了最大限度地提高文本稳定性,我们的目标是使用更新将旧序列与新序列对齐,这些更新对现有布局的更改最小,同时确保字幕准确且有意义。为了实现这一点,我们利用Needleman-Wunsch 算法的变体和动态规划来合并两个序列,具体取决于上面定义的标记类别:

案例 A 标记:我们根据需要直接添加案例 A 标记和换行符以适合更新的标题。

案例 B 标记:我们的初步研究表明,对于之前显示的字幕,用户更看重稳定性而非准确性。因此,我们只会在更新不会破坏现有行布局的情况下更新案例 B 标记。

案例 C 标记:我们通过将原始句子和更新后的句子转换为句子嵌入,测量它们的点积,并仅当它们在语义上不同(相似度 < 0.85)且更新不会导致新的换行符时才更新它们,来比较案例 C 标记的语义相似性。

最后,我们利用动画来减少视觉抖动。我们实现了新添加的标记的平滑滚动和淡入淡出,以进一步稳定实时字幕的整体布局。

用户评价

我们进行了一项有 123 名参与者的用户研究,以 (1) 检查我们提出的闪烁指标与观众对实时字幕的体验之间的相关性,以及 (2) 评估我们的稳定技术的有效性。

我们在 YouTube 上手动选择了 20 个视频,涵盖了视频会议、纪录片、学术演讲、教程、新闻、喜剧等广泛主题。对于每个视频,我们选择了一段 30 秒的剪辑,其中至少 90% 是语音。

我们准备了四种类型的实时字幕效果进行比较:

原始 ASR:来自语音转文本 API 的原始语音转文本结果。

原始 ASR + 阈值:仅当其置信度得分高于 0.85 时才显示临时语音转文本结果。

稳定字幕:使用我们上面描述的算法进行对齐和合并的字幕。

稳定流畅的字幕:稳定的字幕搭配流畅的动画(滚动+淡入淡出),以评估柔和的显示体验是否有助于改善用户体验。

我们通过要求参与者观看录制的现场字幕并对舒适度、分心、阅读的难易程度、跟踪视频的难易程度、疲劳程度以及字幕是否影响他们的体验进行评分来收集用户评分。

闪烁指标与用户体验之间的相关性

我们计算了闪烁指标与每个行为测量之间的Spearman 系数(值的范围为 -1 到 1,其中负值表示两个变量之间存在负关系,正值表示存在正关系,零表示没有关系)。如下所示,我们的研究表明闪烁指标与用户评分之间存在统计学上显著的相关性(𝑝 < 0.001)。系数的绝对值约为 0.3,表明存在中等关系。

行为测量        与闪烁指标的相关性*

舒适 -0.29

分心 0.33

易于阅读 -0.31

简单易懂的视频 -0.29

疲劳 0.36

体验受损 0.31

对我们提出的闪烁度量进行 Spearman 相关性检验。 * p < 0.001。

实时字幕的稳定性

我们提出的技术(稳定平滑字幕)在上述六份调查声明中的五份中获得了持续更好的评分,通过Mann-Whitney U 检验(下图中p < 0.01)测量,评分显著。也就是说,用户认为带平滑功能的稳定字幕更舒适、更易于阅读,同时与其他类型的渲染相比,他们感到的干扰、疲劳和体验受损更少。

用户对调查陈述的评分为 1(非常不同意) – 7(非常同意)。(**:p<0.01,***:p<0.001;****:p<0.0001;ns:不显著)

结论和未来方向

实时字幕中的文本不稳定会严重影响用户的阅读体验。本研究提出了一种基于视觉的指标来模拟字幕稳定性,该指标在统计上与用户体验显著相关,并提出了一种稳定实时字幕渲染的算法。我们提出的解决方案可以集成到现有的 ASR 系统中,以增强实时字幕对各种用户的可用性,包括有翻译需求的用户或有听力障碍需求的用户。

我们的工作代表着朝着衡量和改善文本稳定性迈出了重要一步。这可以发展为包括基于语言的指标,这些指标侧重于实时字幕中使用的单词和短语随时间变化的一致性。这些指标可能反映出用户在与语言理解和理解现实世界场景相关的不适感。我们还有兴趣进行眼动追踪研究(例如下面显示的视频),以追踪观看者的注视模式,例如注视和扫视,这使我们能够更好地了解最令人分心的错误类型以及如何改善这些类型的文本稳定性。

阅读原始 ASR 字幕时跟踪观众视线的图示。

阅读稳定且平滑的字幕时跟踪观众视线的图示。

通过提高实时字幕的文本稳定性,我们可以创建更有效的沟通工具,并改善人们在日常对话中使用熟悉的语言或通过翻译使用不熟悉的语言进行交流的方式。

致谢

这项工作是 Google 多个团队合作的成果。主要贡献者包括 Xingyu “Bruce” Liu、Jun Zhang、Leonardo Ferrer、Susan Xu、Vikas Bahirwani、Boris Smus、Alex Olwal 和 Ruofei Du。我们想向提供帮助的同事表示感谢,包括 Nishtha Bhatia、Max Spear 和 Darcy Philippon。我们还要感谢 Lin Li、Evan Parker 和 CHI 2023 审阅者。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论