找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 26|回复: 0

Google Duplex:一款通过电话完成现实任务的人工智能系统

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-12 13:11:10 | 显示全部楼层 |阅读模式
人机交互的一个长期目标是使人能够像人与人之间一样自然地与计算机对话。近年来,我们目睹了计算机理解和生成自然语音的能力的革命,尤其是深度神经网络(例如Google 语音搜索、WaveNet)的应用。然而,即使使用当今最先进的系统,与不理解自然语言的呆板的计算机语音交谈也常常令人沮丧。特别是,自动电话系统仍然难以识别简单的单词和命令。它们不参与对话流程,迫使呼叫者适应系统,而不是系统适应呼叫者。
今天,我们宣布推出 Google Duplex,这是一种通过自然对话在电话上执行“现实世界”任务的新技术。该技术旨在完成特定任务,例如安排某些类型的约会。对于此类任务,系统使对话体验尽可能自然,让人们可以像与另一个人一样正常交谈,而无需适应机器。
其中一个关键研究见解是将 Duplex 限制在封闭领域,这些领域足够狭窄,可以进行广泛探索。Duplex 只有在这些领域经过深入训练后才能进行自然对话。它无法进行一般对话。
虽然听起来很自然,但这些和其他示例都是全自动计算机系统与真实企业之间的对话。Google
Duplex 技术旨在让对话听起来自然,让对话体验舒适。对我们来说,让用户和企业拥有良好的服务体验非常重要,而透明度是其中的关键部分。我们希望明确通话意图,以便企业了解背景
进行自然对话面临诸多挑战:自然语言难以理解,自然行为难以建模,延迟预期需要快速处理,并且生成具有适当语调的自然语音非常困难。
当人们互相交谈时,他们使用的句子比与计算机交谈时更复杂。他们经常在句子中间自我纠正,比必要的更冗长,或者省略单词而依赖于上下文;他们还表达各种意图,有时在同一个句子中,例如,“所以,星期二到星期四我们营业时间为 11 点到 2 点,然后从 4 点到 9 点重新营业,然后星期五、星期六、星期日我们……或者星期五、星期六我们营业时间为 11 点到 9 点,然后星期日我们营业时间为 1 点到 9 点。”
在自然自发语音中,人们说话的速度比与机器对话时更快,但清晰度更低,因此语音识别更难,而且我们发现单词错误率更高。在电话通话中,这个问题更加严重,因为电话通话中经常会有很大的背景噪音和音质问题。
在较长的对话中,同一句话可能会因上下文的不同而具有截然不同的含义。例如,在预订时,“4 人用餐”可能表示预订时间或人数。相关上下文通常可能是前几句话,电话通话中单词错误率的增加使这个问题更加严重。
决定说什么取决于任务和对话状态。此外,自然对话中也有一些常见的做法——隐含的协议,包括详细说明(“下周五”“什么时候?”“下周五,18 号。”)、同步(“你能听到我吗?”)、打断(“号码是 212-”“对不起,你能重新说一遍吗?”)和停顿(“你能等一下吗?[停顿] 谢谢!” 1 秒和 2 分钟的停顿含义不同)。
得益于理解、交互、计时和说话方面的进步,Google Duplex 的对话听起来很自然。Duplex
的核心是一个使用TensorFlow Extended (TFX) 构建的循环神经网络(RNN),旨在应对这些挑战。为了获得高精度,我们在匿名电话对话数据语料库上训练了 Duplex 的 RNN。该网络使用 Google 自动语音识别 (ASR) 技术的输出,以及来自音频的特征、对话历史记录、对话参数(例如,预约所需的服务或当前时间)等。我们为每个任务分别训练我们的理解模型,但利用跨任务共享的语料库。最后,我们使用来自 TFX 的超参数优化来进一步改进模型。
传入的声音通过 ASR 系统进行处理。ASR 系统会生成文本,然后使用上下文数据和其他输入进行分析,生成响应文本,并通过 TTS 系统大声朗读。
我们结合使用拼接文本转语音 (TTS) 引擎和合成 TTS 引擎(使用Tacotron和WaveNet),根据情况控制语调。
由于加入了语音不流畅成分(例如“嗯”和“呃”),系统听起来也更自然。在拼接 TTS 中组合差别很大的声音单元或添加合成等待时会添加这些成分,这允许系统以自然的方式发出信号表明它仍在处理中。(这是人们在整理思绪时经常做的事情。)在用户研究中,我们发现使用这些不流畅成分的对话听起来更熟悉、更自然。此外,延迟
符合人们的期望也很重要。例如,人们说了一些简单的话,例如“你好?”,他们期望得到立即回应,并且对延迟更敏感。当我们检测到需要低延迟时,我们会使用更快、低置信度的模型(例如语音识别或端点)。在极端情况下,我们甚至不会等待 RNN,而是使用更快的近似值(通常伴随着更犹豫的响应,就像人们在不完全理解对方时会做的那样)。这使得我们在这些情况下的响应延迟少于 100 毫秒。有趣的是,在某些情况下,我们发现引入更多延迟实际上有助于让对话感觉更自然 - 例如,在回复一个非常复杂的句子时。
系统操作
Google Duplex 系统能够进行复杂的对话,并且可以完全自主地完成大部分任务,无需人工参与。该系统具有自我监控能力,这使得它能够识别无法自主完成的任务(例如,安排异常复杂的约会)。在这些情况下,它会向可以完成任务的人类操作员发出信号。
为了在新的领域训练系统,我们使用实时监督训练。这与许多学科的培训实践类似,在学生工作时,教员会监督他们,根据需要提供指导,并确保任务的完成符合教员的质量水平。在 Duplex 系统中,经验丰富的操作员充当教员。通过监控系统在新的领域拨打电话,他们可以根据需要实时影响系统的行为。这种情况一直持续到系统达到所需的质量水平,此时监督停止,系统可以自主拨打电话。
对企业和用户的益处
依赖 Duplex 支持的预约服务且尚未采用在线系统的企业可以从 Duplex 中受益,因为客户可以通过 Google Assistant 进行预约,而无需改变日常惯例或培训员工。使用 Duplex 还可以通过提醒客户即将到来的预约并允许他们轻松取消或重新安排预约,从而减少预约缺席的情况。       
另一个例子是,客户经常致电企业询问网上无法获取的信息,例如节假日的营业时间。Duplex 可以致电企业询问营业时间,并通过 Google 将信息发布到网上,从而减少企业接到的此类电话数量,同时让每个人都能更轻松地获取这些信息。企业可以像往常一样运营,无需学习曲线或进行任何更改即可从这项技术中受益。
复式询问节假日营业时间:       
对于用户来说,Google Duplex 让支持的任务变得更加简单。用户无需拨打电话,只需与 Google Assistant 互动即可,通话完全在后台进行,无需用户参与。
用户向 Google 助理询问预约情况,助理随后让 Duplex 致电企业来安排预约。
Duplex 为用户带来的另一个好处是,它能够以异步方式与服务提供商进行委托通信,例如,在非工作时间或连接受限的情况下请求预订。它还可以帮助解决无障碍和语言障碍问题,例如,允许听力受损的用户或不会说当地语言的用户通过电话执行任务。今年夏天,我们将开始在Google Assistant
中测试 Duplex 技术,以帮助用户通过电话预订餐厅、安排美发沙龙预约和获取节假日营业时间。
Google Duplex 负责人 Yaniv Leviathan 和项目工程经理 Matan Kalman 正在享用通过 Duplex 电话预订的餐点。
拨打双机电话预订上述餐食:       
让人们以自然的方式与技术互动,就像人与人互动一样,这一直都是一个承诺。Google Duplex 朝这个方向迈出了一步,使通过自然对话与技术互动在特定场景中成为现实。我们希望这些技术进步最终有助于显著改善人们与计算机日常互动的体验。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 02:18 , Processed in 0.082395 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表