找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 68|回复: 0

全神经设备上的语音识别器

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-11-21 19:27:54 | 显示全部楼层 |阅读模式
2012 年,语音识别研究表明深度学习可以显著提高准确率,并因此在 Google语音搜索等产品中率先采用 。这是该领域革命的开始:每年都会开发出新的架构来进一步提高质量,从深度神经网络(DNN) 到循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积网络(CNN) 等等。在此期间,延迟仍然是主要关注点 — 自动助理在快速响应请求时会感觉更有帮助。
今天,我们很高兴地宣布推出端到端、全神经、设备内置语音识别器,为 Gboard 中的语音输入提供支持。在我们最近的论文“移动设备的流式端到端语音识别”中,我们介绍了一个使用RNN 传感器(RNN-T) 技术训练的模型,该模型足够紧凑,可以驻留在手机上。这意味着不再有网络延迟或断断续续 — 新的识别器始终可用,即使您处于离线状态。该模型在字符级别工作,因此当您说话时,它会逐个字符地输出单词,就像有人实时输入您所说的内容一样,并且与您期望从键盘听写系统获得的完全一样。
传统上,语音识别系统由几个组件组成 - 一个将音频片段(通常为 10 毫秒帧)映射到音素的声学模型、一个将音素连接在一起形成单词的发音模型和一个表达给定短语可能性的语言模型。在早期系统中,这些组件仍然是独立优化的。2014
年左右,研究人员开始专注于训练单个神经网络,将输入音频波形直接映射到输出句子。这种通过给定音频特征序列生成单词或字素序列来学习模型的序列到序列方法导致了“基于注意力”和“倾听-注意-拼写”模型的发展。虽然这些模型在准确性方面表现出 很大的潜力,但它们通常通过检查整个输入序列来工作,并且不允许在输入进入时进行流式输出,这是实时语音转录的必要功能。
同时,一种称为连接主义时间分类 (CTC)的独立技术帮助将当时的生产识别器的延迟减少了一半。事实证明,这是创建最新版本中采用的 RNN-T 架构的重要一步,该架构可看作是 CTC 的泛化。
循环神经网络传感器
RNN-T 是一种不使用注意力机制的序列到序列模型。与大多数序列到序列模型不同,后者通常需要处理整个输入序列(在我们的例子中是波形)才能产生输出(句子),而 RNN-T 会持续处理输入样本并流式输出符号,这一特性对于语音听写来说是受欢迎的。在我们的实现中,输出符号是字母表中的字符。RNN-T 识别器会在您说话时逐个输出字符,并在适当的位置添加空格。它通过反馈循环来实现这一点,该反馈循环将模型预测的符号反馈给它以预测下一个符号,如下图所示。
有效地训练这样的模型已经很困难了,但是随着我们开发出一种新的训练技术,将单词错误率进一步降低了 5%,它变得更加计算密集。为了解决这个问题,我们开发了一种并行实现,以便 RNN-T 损失函数可以在 Google 的高性能 Cloud TPU v2硬件上高效地批量运行。这使训练速度提高了约 3 倍。
离线识别
在传统的语音识别引擎中,我们上面描述的声学、发音和语言模型被“组合”成一个大型搜索图,其边缘标有语音单元及其概率。当语音波形呈现给识别器时,“解码器”会在给定输入信号的情况下在该图中搜索可能性最高的路径,并读出该路径所采用的单词序列。通常,解码器假设底层模型具有有限状态转换器(FST) 表示。然而,尽管采用了复杂的解码技术,搜索图仍然相当大,对于我们的生产模型来说,搜索图几乎有 2GB。由于这不是可以轻松在手机上托管的东西,因此此方法需要在线连接才能正常工作。
为了提高语音识别的实用性,我们试图通过将新模型直接托管在设备上来避免通信网络的延迟和固有的不可靠性。因此,我们的端到端方法不需要在大型解码器图上进行搜索。相反,解码由通过单个神经网络的波束搜索组成。我们训练的 RNN-T 提供与传统基于服务器的模型相同的准确度,但只有 450MB,本质上是更智能地使用参数并更密集地打包信息。但是,即使在今天的智能手机上,450MB 也是很大的,通过如此大的网络传播信号可能会很慢。
我们通过使用2016 年开发的参数量化和混合内核技术进一步减小了模型大小,并通过TensorFlow Lite库中的模型优化工具包公开提供。模型量化相对于训练过的浮点模型实现了 4 倍的压缩,并在运行时实现了 4 倍的加速,使我们的 RNN-T 在单核上运行速度比实时语音更快。压缩后,最终模型为 80MB。
我们的全新全神经设备内置 Gboard 语音识别器最初仅面向所有 Pixel 手机推出,仅支持美式英语。鉴于行业趋势,随着专用硬件和算法改进的融合,我们希望这里介绍的技术能够很快被更多语言和更广泛的应用领域所采用。
鸣谢:
Raziel Alvarez、Michiel Bacchiani、Tom Bagby、Françoise Beaufays、Deepti Bhatia、Shuo-yiin Chang、Zhifeng Chen、Chung-Chen Chiu、Yanzhang He、Alex Gruenstein、Anjuli Kannan、Bo Li、Wei Li、乔梁、Ian McGraw、Patrick Nguyen、Ruoming Pang、Rohit Prabhavalkar、Golan Pundak、Kanishka Rao、David Rybach、Tara Sainath、Haşim Sak、June Yuan Shangguan、Matt Shannon、Mohammadinamul Sheik、Khe Chai Sim、Gabor Simko、Trevor Strohman、Mirkó Visontai、Ron Weiss、吴永辉、Ding Zhu、Dan Zivkovic 和 Yu Zhu。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 18:41 , Processed in 0.084050 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表