找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 74|回复: 0

使用 Live Transcribe 进行实时连续转录

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-11-22 14:00:47 | 显示全部楼层 |阅读模式
世界卫生组织( WHO )估计,全球有 4.66 亿人是聋人和听力障碍者。自动语音识别(ASR) 是让这些人群能够进行交流并获取世界信息的一项关键技术,它使计算机能够检测可听见的语言并将其转录为文本以供阅读。YouTube上的自动字幕、幻灯片中的演示文稿以及电话通话都采用了Google 的 ASR 技术。然而,尽管 ASR在过去几年中取得了多方面的改进,但聋人和听力障碍者仍然主要依赖手动转录服务,例如美国的CART 、英国的Palantypist或其他国家的STTR。这些服务费用高昂,而且通常需要提前很久预约,从而减少了聋人和听力障碍者参与即兴对话和社交活动的机会。我们相信技术可以弥合这一差距并赋予这个群体权力。 今天,我们宣布推出Live Transcribe,这是一项免费的 Android 服务,通过将自动字幕功能引入日常对话中,让现实世界的对话更加容易理解。Live Transcribe 由Google Cloud提供支持,可实时为对话添加字幕,支持 70 多种语言和全球 80% 以上的人口。您可以在任何应用中,直接从系统托盘上的辅助功能图标中单击启动它。
构建 Live Transcribe
以前基于 ASR 的转录系统通常需要计算密集型模型、详尽的用户研究和昂贵的连接访问,所有这些都阻碍了自动连续转录的采用。为了解决这些问题并确保合理准确的实时转录,Live Transcribe 将广泛的用户体验 (UX) 研究的结果与与语音处理服务器的无缝和可持续连接相结合。此外,我们需要确保与这些服务器的连接不会导致用户过度使用数据。
依靠云端 ASR 可以为我们提供更高的准确性,但我们希望减少 Live Transcribe 所需的网络数据消耗。为此,我们实现了一个基于设备神经网络的语音检测器,该检测器建立在我们之前使用AudioSet的工作之上。这个网络是一个类似图像的模型,类似于我们发布的 VGGish 模型,它可以检测语音并自动管理与云端 ASR 引擎的网络连接,从而最大限度地减少长时间使用期间的数据使用量。
用户体验
为了让 Live Transcribe 尽可能直观,我们与加劳德特大学合作,启动用户体验研究协作,确保满足核心用户需求,同时最大限度地发挥我们技术的潜力。我们考虑了几种不同的模式,电脑、平板电脑、智能手机,甚至小型投影仪,迭代显示听觉信息和字幕的方式。最后,我们决定专注于智能手机的外形,因为这些设备无处不在,而且功能越来越强大。
确定这一点后,我们需要解决另一个重要问题:显示转录置信度。传统上被认为对用户有帮助,我们的研究探索了我们是否真的需要显示单词级别或短语级别的置信度。
我们的研究支持了该领域之前的用户体验研究,结果表明,当文本中没有这些信号时,阅读起来最容易。相反,Live Transcribe 专注于更好地呈现文本,并用语音以外的其他听觉信号进行补充。
另一个有用的用户体验信号是当前环境的噪音水平。这被称为鸡尾酒会问题,在嘈杂的房间里理解说话者是计算机面临的一大挑战。为了解决这个问题,我们构建了一个指示器,可以直观地显示用户语音相对于背景噪音的音量。这还可以让用户即时了解麦克风接收来自扬声器的语音的效果,从而让他们调整手机的位置。
未来工作
未来基于移动设备的自动语音转录的潜在改进包括设备上识别、说话人分离和语音增强。单纯依靠转录可能会存在导致沟通不畅的陷阱。我们与加劳德特大学合作的研究表明,将其与语音检测和响度指示器等其他听觉信号相结合,可以为用户的沟通选择带来切实有意义的改变。
Transcribe 现已在 Play Store 分阶段推出,并预装在所有具有最新更新的 Pixel 3 设备上。然后可以通过辅助功能设置启用 Live Transcribe。您还可以在The Keyword上阅读有关它的更多信息。
致谢
Live Transcribe 是由研究员 Chet Gnegy、Dimitri Kanevsky 和 ​​Justin S. Paul 与 Android Accessibility 团队成员 Brian Kemler、Thomas Lin、Alex Huang、Jacqueline Huang、Ben Chung、Richard Chang、I-ting Huang、Jessie Lin、Ausmus Chang、Weiwei Wei、Melissa Barnhart 和 Bingying Xia 合作开发的。我们还要感谢来自加劳德特大学的亲密合作伙伴 Christian Vogler、Norman Williams 和 Paula Tucker。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-26 18:04 , Processed in 0.085056 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表