找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 39|回复: 0

教 Google 助理使用多种语言

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-10 17:04:10 | 显示全部楼层 |阅读模式
多语言家庭正变得越来越普遍,有多个来源 [ 1 ][ 2 ][ 3 ] 表明,多语言使用者的数量已经超过单语使用者,而且这个数字还将继续增长。随着多语言用户数量如此庞大且不断增长,Google 开发能够同时支持多种语言的产品以更好地服务用户变得比以往任何时候都更加重要。
今天,我们推出了对 Google 助理的多语言支持,该功能可让用户在查询之间在两种不同语言之间切换,而无需返回语言设置。一旦用户选择了两种受支持的语言(英语、西班牙语、法语、德语、意大利语和日语),他们就可以用任一语言与助理交谈,助理也会做出相应的回应。以前,用户必须为助理选择一种语言设置,每次想要使用另一种语言时都必须更改设置,但现在,对于多语言家庭来说,这是一种简单、无需动手的体验。
现在,Google Assistant 能够识别语言、解释查询并使用正确的语言提供响应,而无需用户触摸 Assistant 设置。
然而,要实现这一目标并不是一件简单的事情。事实上,这是我们多年的努力成果,涉及解决许多具有挑战性的问题。最后,我们将问题分解为三个独立的部分:识别多种语言、理解多种语言和为 Google Assistant 用户优化多语言识别。
识别多种语言
人们有能力识别某人在说另一种语言,即使他们自己不会说这种语言,只要注意语音的声学特性(语调、音位等)。然而,定义一个自动口语识别的计算框架是一项挑战,即使借助全自动语音识别系统1。2013 年,Google 开始使用深度神经网络研究口语识别 (LangID) 技术 [ 4 ][ 5 ]。如今,我们最先进的 LangID 模型可以使用循环神经网络区分 2000 多个备选语言对中的语言对,循环神经网络是一类神经网络,特别适用于序列建模问题,例如语音识别、语音检测、说话人识别等。我们遇到的挑战之一是处理更大的音频集 — 获得能够自动大规模理解多种语言的模型,并达到允许这些模型正常工作的质量标准。
理解多种语言
要同时理解多种语言,需要并行运行多个进程,每个进程都会产生增量结果,这样 Google Assistant 不仅可以识别查询所使用的语言,还可以解析查询以创建可操作的命令。例如,即使对于单语环境,如果用户要求“将闹钟设置为下午 6 点”,Google Assistant 也必须理解“设置闹钟”意味着打开时钟应用,满足“下午 6 点”的明确参数,并推断闹钟应设置为今天。让此功能适用于任何一对受支持的语言都是一项挑战,因为 Assistant 执行的工作与单语情况相同,但现在必须额外启用 LangID,并且不仅要同时启用一个,而是要同时启用两个单语语音识别系统(我们将在本文后面详细解释当前的两种语言限制)。
重要的是,Google Assistant 和用户查询中引用的其他服务会异步生成实时增量结果,这些结果需要在几毫秒内进行评估。这是借助附加算法实现的,该算法使用 LangID 生成的候选语言的概率、我们对转录的信心以及用户的偏好(例如最喜欢的艺术家)对两个语音识别系统提供的转录假设进行排序。
Google Assistant 使用的多语言语音识别系统与标准单语言语音识别系统的示意图。使用排名算法,根据用户的相关信息和增量 langID 结果,从两个单语言语音识别器中选择最佳识别假设。
当用户停止说话时,模型不仅确定了用户所说的语言,还确定了用户所说的内容。当然,这个过程需要复杂的架构,这会增加处理成本,并可能引入不必要的延迟。
优化多语言识别
为了最大限度地减少这些不良影响,系统越快决定用户所说的语言越好。如果系统在用户完成查询之前确定了用户所说的语言,那么它将停止通过失败的识别器运行用户的语音并放弃失败的假设,从而降低处理成本并减少任何潜在的延迟。 考虑到这一点,我们看到了几种优化系统的方法。
我们考虑的一个用例是,人们通常在整个查询过程中使用相同的语言(这也是用户通常希望从助手那里得到的语言),除了询问具有不同语言名称的实体。这意味着,在大多数情况下,专注于查询的第一部分可以让助手对所说的语言做出初步猜测,即使在包含不同语言实体的句子中也是如此。有了这种早期识别,我们只需切换到单个单语语音识别器,就像我们处理单语查询一样,就可以简化任务。但是,要快速决定如何以及何时使用单一语言,需要最后的技术转变:具体来说,我们使用一种随机森林技术,该技术结合了多种上下文信号,例如正在使用的设备类型、发现的语音假设数量、我们收到类似假设的频率、各个语音识别器的不确定性以及每种语言的使用频率。
我们简化和提高系统质量的另一种方法是限制用户可以选择的候选语言列表。用户可以从我们的家庭设备目前支持的六种语言中选择两种,这将使我们能够支持大多数多语种使用者。然而,随着我们不断改进技术,我们希望接下来解决三语支持问题,我们知道这将进一步增强我们不断增长的用户群的体验。从
双语到三语从一开始,我们的目标就是让 Assistant 对所有
用户 来说都是自然对话的。多语言支持一直是一项备受期待的功能,我们的团队多年前就已着眼于此。但如今全球不仅有大量双语使用者,我们还想让三语用户或生活在使用两种以上语言的家庭中的人的生活更轻松一些。
今天的更新表明我们已走上正轨,这得益于我们先进的机器学习、语音和语言识别技术以及我们团队致力于改进 LangID 模型。我们目前正在努力教 Google 助理如何同时处理两种以上的语言,并正在努力在未来添加更多支持的语言 — 敬请期待!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 09:50 , Processed in 0.093059 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表