英语学习者现在可以在搜索上练习口语

1724373443517.jpg

学习一门语言可以开启一个人的人生新机遇。它可以帮助人们与来自不同文化的人建立联系,环游世界,并促进他们的事业发展。仅英语一项,全球就有 15 亿学习者。然而,掌握一门新语言并不容易,许多学习者认为缺乏积极练习口语和获得可操作反馈的机会是学习的障碍。

我们很高兴地宣布 Google 搜索将推出一项新功能,帮助人们练习口语并提高语言技能。在接下来的几天内,阿根廷、哥伦比亚、印度(印地语)、印度尼西亚、墨西哥和委内瑞拉的 Android 用户可以通过互动英语口语练习从 Google 获得更多语言支持,未来将扩展到更多国家和语言。Google 搜索已经成为语言学习者的宝贵工具,提供翻译、定义和其他资源来提高词汇量。现在,在 Android 手机上进行英语翻译或从英语翻译的学习者将获得全新的英语口语练习体验,并获得个性化反馈。

Google 搜索的一项新功能允许学习者

练习在上下文中说单词。

学习者会收到现实生活中的提示,然后使用提供的词汇形成自己的口头答案。他们参加 3-5 分钟的练习课程,获得个性化反馈,并可以选择注册每日提醒以继续练习。只需一部智能手机和一些优质时间,学习者就可以随时随地按照自己的节奏练习。

具有个性化反馈的活动,以补充现有的学习工具

谷歌搜索上的新口语练习功能旨在与其他学习服务和资源(如个人辅导、移动应用程序和课程)一起使用,是另一种帮助学习者学习的工具。

我们与语言学家、教师和ESL/EFL教学专家 合作,创造了一种有效且激励人心的口语练习体验。学习者在真实的语境中练习词汇,材料以动态间隔重复以提高记忆力——这些方法已知可以有效帮助学习者成为自信的演讲者。正如我们的一位合作伙伴所分享的:

“在特定语境中说话是语言学习者经常缺乏练习机会的一项技能。因此,这个工具对于补充课程和其他资源非常有用。” - Judit Kormos,兰卡斯特大学教授

我们也很高兴能与多家语言学习合作伙伴合作,展示他们正在帮助创建的内容,并让他们与世界各地的学习者建立联系。我们期待进一步扩大该计划并与任何感兴趣的合作伙伴合作。

个性化实时反馈

每个学习者都是不同的,因此实时提供个性化反馈是有效练习的关键部分。对答案进行分析,以提供有用的实时建议和纠正。

系统提供语义反馈,表明他们的回答是否与问题相关,以及对话伙伴是否可以理解。语法反馈提供了对可能的语法改进的见解,而一组不同语言复杂程度的示例答案则为在这种情况下如何做出其他回应提供了具体的建议。

反馈由三个要素组成:语义分析、语法纠正、示例答案。

上下文翻译

在我们开发的几项新技术中,上下文翻译提供了根据上下文 翻译单个单词和短语的功能。在练习过程中,学习者可以点击任何他们不理解的单词,查看该单词根据其上下文的翻译。

上下文翻译功能的示例。

这是一项艰巨的技术任务,因为单个单词通常具有多种替代含义,并且多个单词可以形成需要统一翻译的含义集群。我们的新方法是翻译整个句子,然后估计原文和译文中的单词之间的关系。这通常称为词对齐问题。

翻译句子对及其单词对齐的示例。深度学习对齐模型将构成含义的不同单词连接起来以提供翻译建议。

实现此功能的关键技术是与 Google 翻译团队合作开发的一种新型深度学习模型,称为 Deep Aligner。其基本思想是采用一个在数百种语言上训练过的多语言语言模型,然后根据一组由人类专家提供的词对齐示例(见上图)对多个语言对的新型对齐模型进行微调。由此,单个模型可以准确地对齐任何语言对,达到最先进的对齐错误率(AER,衡量词对齐质量的指标,值越低越好)。这个新模型显著提高了所有测试语言对的对齐质量,与基于隐马尔可夫模型(HMM) 的对齐方法相比,平均 AER 从 25% 降低到 5%。

英语(EN)与其他语言之间的对齐错误率(越低越好)。

该模型也被纳入到Google的翻译API中,大大改善了例如Chrome中翻译的PDF和网站的格式、YouTube字幕的翻译,并增强了Google Cloud的翻译API。

语法反馈

为了实现带口音的口语语法反馈,我们的研究团队调整了书面文本的语法校正模型(参见博客和论文),以处理自动语音识别 (ASR) 转录,特别是针对带口音的语音。关键步骤是在人工和 ASR 口音转录语料库上微调书面文本模型,并使用专家提供的语法校正。此外,受前人研究的启发,团队开发了一种新颖的基于编辑的输出表示,利用输入和输出之间的高度重叠,特别适合语言学习环境中常见的短输入句子。

可以使用一个示例来解释编辑表示:

输入:我1是2所以3不好4烹饪5

更正:我1是2所以3坏4在5烹饪6

编辑:('at',4,介词,4)

上图中,“at” 是插入到位置 4 的单词,“PREPOSITION” 表示这是一个涉及介词的错误。我们使用错误标签来选择依赖于标签的接受阈值,从而进一步改进了模型。该模型将语法问题的召回率从 4.6% 提高到了 35%。

我们的模型和在书面语料库上训练的模型的一些示例输出:

    示例 1     示例 2

用户输入(转录语音) 我靠我的职业生活。 我需要一张高效且可靠的卡。

基于文本的语法模型 我靠我的职业谋生。 我需要一张高效且可靠的卡。

新的语音优化模型 我靠我的职业谋生。 我需要一张高效、可靠的卡。

语义分析

对话的主要目标是清楚地传达自己的意图。因此,我们设计了一项功能,以视觉方式向学习者传达他们的回答是否与上下文相关,以及是否能被同伴理解。这是一个困难的技术问题,因为早期语言学习者的口头回答在句法上可能不合常规。我们必须仔细平衡这项技术,将重点放在意图的清晰度上,而不是句法的正确性上。

我们的系统采用了两种方法的组合:

敏感性分类:大型语言模型(如LaMDA或PaLM)旨在在对话中给出自然的反应,因此它们在相反方面表现出色也就不足为奇了:判断给定的响应是否在上下文上合理。

与良好响应的相似性:我们使用编码器架构将学习者的输入与语义嵌入空间中一组已知的良好响应进行比较。这种比较提供了另一个有关语义相关性的有用信号,进一步提高了我们提供的反馈和建议的质量。

系统会提供反馈,说明响应是否与提示相关,以及是否可以被沟通伙伴理解。

机器学习辅助内容开发

我们提供的练习活动包括由人类专家创作的内容以及通过人工智能辅助和人工审核创作的内容。其中包括口语提示、重点词组以及展示有意义且符合语境的回答的示例答案集。

当学习者收到反馈并点击帮助按钮时,会提供示例答案列表。

由于学习者的能力水平不同,内容的语言复杂性必须进行适当调整。先前的语言复杂性估计工作侧重于段落长度或更长的文本,这与我们的系统处理的响应类型有很大不同。因此,我们开发了可以估计单个句子、短语甚至单个单词的复杂性的新模型。这很有挑战性,因为即使是由简单单词组成的短语对于语言学习者来说也很难(例如,“让我们直奔主题”)。我们最好的模型基于BERT,实现了最接近人类专家共识的复杂性预测。该模型使用大量 LLM 标记示例进行预训练,然后使用人类专家标记的数据集进行微调。

各种方法在约 450 个对话段落(文本/转录)的多样化语料库上评估内容难度时的性能均方误差。顶行:人类评分者将项目标记为 0.0 到 5.0 的等级,与CEFR 等级(从 A1 到 C2)大致一致。下面四行:不同的模型执行相同的任务,我们展示了与人类专家共识的差异。

利用该模型,我们可以评估文本项目的难度,提供各种建议,最重要的是,根据学习者的能力水平为他们提供适当的挑战。例如,使用我们的模型标记示例,我们可以微调我们的系统以生成各种语言复杂程度的口语提示。

通过问题引出的词汇重点词

    吉他     苹果     狮子

简单的     你喜欢玩什么?     你喜欢水果吗?     你喜欢大型猫科动物吗?

中间的     你会演奏乐器吗?     你最喜欢的水果是什么?     你最喜欢的动物是什么?

复杂的     您喜欢演奏什么弦乐器?     您喜欢吃哪种水果?因为它口感松脆、味道甜美?     您喜欢观看大型、强大的食肉动物吗?

此外,通过内容难度估计,随着时间的推移逐渐增加任务难度,以适应学习者的进步。

结论

这些最新更新将在未来几天内推出,谷歌搜索将变得更加有用。如果您是印度(印地语)、印度尼西亚、阿根廷、哥伦比亚、墨西哥或委内瑞拉的 Android 用户,请尝试使用谷歌进行英语翻译或从英语翻译。

我们期待未来扩展到更多国家和语言,并很快开始提供合作伙伴实践内容。

致谢

许多人参与了该项目的开发。其中,我们要感谢语言学习领域的外部顾问:Jeffrey Davitz、Judit Kormos、Deborah Healey、Anita Bowles、Susan Gaer、Andrea Revesz、Bradley Opatz 和 Anne Mcquade。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论