Google 研究,2022 年及未来:语言、视觉和生成模型

1725869393824.jpg

我一直对计算机很感兴趣,因为它们能够帮助人们更好地理解周围的世界。在过去十年中,谷歌所做的大部分研究都是为了实现类似的愿景——帮助人们更好地理解周围的世界并完成任务。我们希望制造出更强大的机器,与人类合作完成各种各样的任务。各种各样的任务。复杂的信息搜索任务。创造性任务,如创作音乐、绘制新图片或制作视频。分析和综合任务,如根据几句指导编写新文档或电子邮件,或与人合作共同编写软件。我们希望解决复杂的数学或科学问题。转换模态,或将世界的信息翻译成任何语言。诊断复杂疾病,或了解物理世界。在虚拟软件世界和机器人物理世界中完成复杂的多步骤操作。

我们已经在研究成果中展示了其中一些功能的早期版本,并且我们已与 Google 的许多团队合作,将其中一些功能融入影响数十亿用户生活的 Google 产品中。但这一旅程最激动人心的部分仍在前方!

通过这篇文章,我将启动一个系列,其中 Google 的研究人员将重点介绍我们在 2022 年取得的一些令人振奋的进展,并介绍我们对 2023 年及以后的愿景。我将从语言、计算机视觉、多模态模型和生成机器学习模型开始讨论。在接下来的几周里,我们将讨论从负责任的人工智能到算法和计算机系统再到科学、健康和机器人等研究主题的新进展。让我们开始吧!

语言模型 计算机视觉 多模态模型

生成模型 负责任的人工智能 机器学习与计算机系统

高效深度学习 算法进步 机器人

自然科学 健康 社区参与

语言模型

在过去十年中,更大、更强大的语言模型的进展一直是机器学习 (ML) 研究中最令人兴奋的领域之一。在此过程中,重要的进展包括序列到序列学习等新方法以及我们开发的Transformer模型,该模型是过去几年该领域大部分进展的基础。尽管语言模型的训练目标非常简单,例如根据前面的标记预测文本序列中的下一个标记,但当大型模型在足够大且多样化的文本语料库上进行训练时,这些模型可以生成连贯、符合上下文、听起来自然的响应,并且可以用于各种任务,例如生成创意内容、在语言之间进行翻译、帮助完成编码任务以及以有用且信息丰富的方式回答问题。我们正在进行的LaMDA工作探索了如何使用这些模型进行安全、扎实和高质量的对话,以实现上下文多轮对话。

自然对话显然是人类与计算机交互的重要且新兴的方式。我们不必费尽心思以最能适应计算机局限性的方式进行交互,而是可以通过自然对话来完成各种各样的任务。我对我们在使 LaMDA 变得实用和实用方面取得的进展感到兴奋。

4 月,我们介绍了我们在PaLM方面的工作,PaLM 是一个拥有 5400 亿个参数的大型语言模型,使用我们的Pathways 软件基础设施构建,并在多个TPU v4 Pod上进行训练。PaLM 的工作表明,尽管仅以预测下一个标记为目标进行训练,但对大量多语言数据和源代码进行训练的大规模语言模型能够在各种自然语言、翻译和编码任务中提高最先进的水平,尽管从未接受过专门执行这些任务的训练。这项工作提供了额外的证据,表明增加模型和训练数据的规模可以显著提高能力。

PaLM 540B 参数模型与之前最先进的模型 (SOTA) 在Big-bench套件的 58 个任务上的性能比较。(详情请参阅论文。)

我们还看到了使用大型语言模型 (LLM) 的显著成功,这些模型是在源代码(而不是自然语言文本数据)上训练的,可以帮助我们的内部开发人员,如ML 增强代码补全提高开发人员生产力中所述。使用来自 5 亿参数语言模型的各种代码补全建议,为 10,000 名在其 IDE 中使用此模型的 Google 软件开发人员群体提供服务,我们发现所有代码中有 2.6% 来自该模型生成的建议,从而将这些开发人员的编码迭代时间缩短了 6%。我们正在开发它的增强版本,并希望将其推广给更多的开发人员。

人工智能面临的一大关键挑战是构建能够执行多步骤推理的系统,学会将复杂问题分解为较小的任务,并结合这些任务的解决方案来解决更大的问题。我们最近在思路链提示方面开展了研究,鼓励模型在解决新问题时“展示其工作”(类似于四年级数学老师鼓励你展示解决问题所涉及的步骤,而不仅仅是写下你想出的答案),这有助于语言模型遵循逻辑思路并生成更有条理、更有条理和更准确的回答。就像展示自己工作的四年级数学学生一样,这不仅使解决问题的方法更具解释性,而且对于需要多步推理的复杂问题,也更有可能找到正确答案。

使用标准提示的模型会直接提供多步骤推理问题的答案。相比之下,思路链提示会教会模型将问题分解为中间推理步骤,从而更好地使其得出正确的最终答案。

多步推理最明显有益且可衡量的领域之一是模型解决复杂数学推理和科学问题的能力。一个关键的研究问题是 ML 模型是否可以学习使用多步推理解决复杂问题。通过采用通用的 PaLM 语言模型并在来自arXiv的大量数学文档和科学研究论文上对其进行微调,然后使用思路链提示和自洽解码,Minerva 的努力能够在各种科学和数学基准套件中展示出数学推理和科学问题的最新进展。

数学 MMLU-STEM OCW课程 GSM8k

密涅瓦 50.3% 75% 30.8% 78.5%

发表最新成果 6.9% 55% – 74.4%

Minerva 540B 显著提高了STEM评估数据集上的最新性能。

思路链提示是一种更好地向模型表达自然语言提示和示例的方法,以提高其处理新任务的能力。类似的学习提示调整,即在特定于问题域的文本语料库上对大型语言模型进行微调,已显示出巨大的前景。在“大型语言模型编码临床知识”中,我们证明了学习提示调整可以用相对较少的示例将通用语言模型应用于医学领域,并且生成的模型在美国医师执照考试问题(MedQA)上的准确率可以达到 67.6%,比之前的 ML 最新水平高出 17% 以上。虽然与临床医生的能力相比仍然有差距,但理解、知识回忆和医学推理都会随着模型规模和指令提示调整而提高,这表明了 LLM 在医学领域的潜在效用。持续的研究有助于为临床应用创建安全、有用的语言模型。

经过多种语言训练的大型语言模型也能帮助将一种语言翻译成另一种语言,即使它们从未被教过如何明确地翻译文本。传统的机器翻译系统通常依靠平行(翻译)文本来学习将一种语言翻译成另一种语言。然而,由于只有相对较少的语言存在平行文本,许多语言往往得不到机器翻译系统的支持。在“解锁零资源机器翻译以支持谷歌翻译中的新语言”以及随附的论文“构建下一个一千种语言的机器翻译系统”和“迈向多语言机器翻译中的下一个一千种语言:探索监督学习和自监督学习之间的协同作用”中,我们描述了一组技术,这些技术使用在单语(非平行)数据集上训练的大规模多语言语言模型,为谷歌翻译添加了 3 亿人使用的 24 种新语言。

每种语言的单语数据量与每种语言的并行(翻译)数据量。少数语言拥有大量并行数据,但大量语言仅拥有单语数据。

另一种方法是用学习软提示来表示,我们不是构造新的输入标记来表示提示,而是为每个任务添加少量可调整的参数,这些参数可以从一些任务示例中学习到。这种方法通常在我们学习过软提示的任务上产生高性能,同时允许大型预训练语言模型在数千个不同的任务之间共享。这是任务适配器更通用技术的一个具体示例,它允许大部分参数在任务之间共享,同时仍允许特定于任务的调整和调整。

随着规模的增加,快速调优(使用可调软提示对冻结模型进行条件调整)尽管使用的参数少了 25,000 个,但其性能与模型调优相当。

有趣的是,由于新功能的出现,语言模型的实用性会随着其规模的扩大而显著增长。“描述大型语言模型中的突发现象”研究了有时令人惊讶的特征,即这些模型在达到一定规模之前无法非常有效地执行特定的复杂任务。但是,一旦发生了临界量的学习(因任务而异),它们就会突然显示出准确执行复杂任务的能力的大幅提升(如下所示)。这提出了一个问题:当这些模型得到进一步训练时,哪些新任务将变得可行。

执行多步算术(左)、通过大学水平的考试(中)以及识别上下文中单词的本义(右)的能力都只有足够大规模的模型才能实现。图中所示的模型包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM。

此外,足够规模的语言模型具有学习和适应新信息和任务的能力,这使得它们更加通用和强大。随着这些模型不断改进和变得更加复杂,它们很可能在我们生活的许多方面发挥越来越重要的作用。

顶部

计算机视觉

计算机视觉不断发展并取得快速进展。2020年,我们在Vision Transformers方面的工作开始出现一种趋势,即在计算机视觉模型中使用Transformer架构,而不是卷积神经网络。尽管卷积的局部特征构建抽象是解决许多计算机视觉问题的强大方法,但它不如 Transformer 中的通用注意力机制灵活,后者可以在整个模型中利用有关图像的局部和非局部信息。然而,完整的注意力机制很难应用于更高分辨率的图像,因为它会随着图像大小的平方而缩放。

在“ MaxViT:多轴视觉变换器”中,我们探索了一种方法,该方法在视觉模型的每个阶段结合了局部和非局部信息,但比原始视觉变换器工作中存在的完整注意机制更有效地扩展。这种方法在ImageNet-1k分类任务和各种对象检测任务上的表现优于其他最先进的模型,但计算成本却显著降低。

MaxViT 采用多轴注意力机制,依次进行局部阻塞注意力、扩张全局注意力,然后进行FFN,复杂度仅为线性。相同颜色的像素一起受到关注。

在“ Pix2Seq:用于对象检测的语言建模框架”中,我们探索了一种简单而通用的方法,从完全不同的角度解决对象检测问题。与现有的特定于任务的方法不同,我们将对象检测视为以观察到的像素输入为条件的语言建模任务,模型经过训练可以“读出”图像中感兴趣对象的位置和其他属性。与现有的高度专业化和优化的检测算法相比,Pix2Seq 在大型对象检测COCO 数据集上取得了有竞争力的结果,并且通过在更大的对象检测数据集上对模型进行预训练可以进一步提高其性能。

用于对象检测的 Pix2Seq 框架。神经网络感知图像,并为每个对象生成一系列标记,这些标记对应于边界框和类标签。

计算机视觉领域中的另一个长期挑战是从一张或几张二维图像中更好地理解现实世界物体的三维结构。我们一直在尝试多种方法来在这一领域取得进展。在“大运动帧插值”中,我们证明了可以通过在相隔数秒拍摄的两张照片之间进行插值来创建短小的慢动作视频,即使场景的某些部分可能存在显著的运动。在“使用 Transformers 进行视图合成”中,我们展示了如何结合两种新技术,即光场神经渲染(LFNR) 和可泛化的基于块的神经渲染(GPNR),来合成场景的新视图,这是计算机视觉领域中一个长期存在的挑战。LFNR 是一种可以通过使用学习组合参考像素颜色的 Transformers 来准确地重现视图相关效果的技术。虽然 LFNR 在单个场景上运行良好,但其推广到新场景的能力有限。 GPNR 通过使用一系列具有规范化位置编码的变换器来克服这一问题,这些变换器可以在一组场景上进行训练,以合成新场景的视图。这些技术结合在一起,只需几张场景图像就能高质量地合成新场景的视图,如下所示:

通过结合 LFNR 和 GPNR,模型能够仅根据场景的几张图像生成场景的新视图。这些模型在处理与视图相关的效果(如试管上的折射和半透明效果)时特别有效。来源:NeX /Shiny数据集中的静态图像。

更进一步,在“ LOLNerf:一眼就能学会”中,我们探索了仅从一张二维图像中学习高质量表征的能力。通过对特定类别物体的许多不同示例(例如,大量不同猫的单张图片)进行训练,我们可以充分了解物体的预期三维结构,从而仅从一张新类别的图像(例如,仅一张猫的图片,如下面的 LOLCats 片段所示)创建三维模型。

上图:来自AFHQ的示例猫图像。下图: LOLNeRF 创建的新型 3-D 视图合成。

这项工作的总体目标是开发能够帮助计算机更好地理解三维世界的技术——这是计算机视觉的长期梦想!

顶部

多模态模型

过去,大多数机器学习工作都集中在处理单一模态数据的模型上(例如语言模型、图像分类模型或语音识别模型)。虽然这些领域已经取得了许多惊人的进展,但未来更加令人兴奋,因为我们期待多模态模型能够灵活地同时处理多种不同的模态,既作为模型输入,又作为模型输出。过去一年,我们以多种方式朝着这个方向努力。

下一代多模式模型不再依赖于针对特定任务或领域定制的单个模型,而是可以通过仅激活特定问题所需的模型路径来同时处理不同的模式。

构建多模态模型时必须解决两个关键问题才能最好地实现跨模态特征和学习:

在允许合并学习到的表示之前,应该进行多少特定于模态的处理?

混合表示的最有效方法是什么?

在我们关于“多模态瓶颈变换器”的工作以及随附的“多模态融合的注意瓶颈”论文中,我们探索了这些权衡,并发现在经过几层特定于模态的处理后将模态组合在一起,然后通过瓶颈层混合来自不同模态的特征比其他技术更有效(如下图中的瓶颈中间融合所示)。通过学习使用多种模态数据进行分类决策,这种方法大大提高了各种视频分类任务的准确性。

多模态 Transformer 编码器的注意力配置示例。红色和蓝色的点行表示编码器层。多模态 Transformer 编码器特征融合的典型方法(“完全融合”)在层中的隐藏单元中使用成对自注意力(左)。瓶颈融合(中)通过紧密的潜在单元(称为注意力瓶颈)限制层内的注意力流。瓶颈中融合(右)仅将瓶颈融合应用于模型中的后续层以获得最佳性能。

结合多种模态通常可以提高甚至单模态任务的准确率。这是我们多年来一直在探索的一个领域,包括我们在DeViSE上的工作,它将图像表示和词嵌入表示结合起来,以提高图像分类的准确率,甚至对看不见的物体类别也是如此。这一总体思想的现代变体是锁定图像调整(LiT),这是一种将语言理解添加到现有的预训练图像模型中的方法。这种方法对比训练文本编码器以匹配来自强大的预训练图像编码器的图像表示。这种简单的方法数据和计算效率高,与现有的对比学习方法相比,大大提高了零样本图像分类性能。

LiT-tuning 对比训练文本编码器以匹配预先训练的图像编码器。文本编码器学习计算与图像编码器的表示一致的表示。

多模态模型的单模态效用的另一个例子是在对相关模态(如图像和视频)进行联合训练时观察到的。在这种情况下,与单独对视频数据进行训练相比,通常可以提高视频动作分类任务的准确性(尤其是当一种模态的训练数据有限时)。

将语言与其他模态相结合是改善用户与计算机交互方式的自然步骤。今年,我们已经以多种方式探索了这个方向。最令人兴奋的方法之一是将语言和视觉输入(静态图像或视频)相结合。在“ PaLI:可扩展的语言-图像学习”中,我们引入了一个统一的语言-图像模型,该模型经过训练可以执行 100 多种语言的多项任务。这些任务涵盖视觉、语言以及多模态图像和语言应用,例如视觉问答、图像字幕、对象检测、图像分类、光学字符识别、文本推理等。通过将视觉变换器 (ViT) 与基于文本的变换器编码器相结合,然后与基于变换器的解码器相结合以生成文本答案,并同时在许多不同的任务上对整个系统进行端到端训练,该系统在许多不同的基准测试中都取得了最先进的结果。

例如,PaLI 在CrossModal-3600 基准测试 中取得了最佳成绩,这是一项对多语言、多模式能力的多样化测试,在 35 种语言中的平均CIDEr得分为 53.4(高于之前的最高分28.9)。如下图所示,如果有一个模型可以同时理解多种模式和多种语言,并处理多种任务,如字幕和问答,那么计算机系统就可以让你与他人进行自然的对话,讨论其他类型的感官输入,用多种语言提出问题并获得满足你需求的答案(“你能用泰语说出这张图片中桌子上方是什么吗? ”、“你看到有多少只长尾小鹦鹉坐在树枝上? ”、“用斯瓦希里语描述这张图片”、“这张图片中的印地语文字是什么? ”)。

PaLI 模型使用相同的 API 处理语言-图像、纯语言和纯图像领域的各种任务(例如,视觉问题回答、图像字幕、场景文本理解等)。该模型经过训练,支持 100 多种语言,并经过调整,可针对多种语言-图像任务执行多种语言。

类似地,我们在FindIt上的工作使得有关视觉图像的自然语言问题能够通过统一、通用和多任务的视觉基础模型来回答,该模型可以灵活地回答不同类型的基础和检测查询。

FindIt 是一个统一的模型,用于指代表情理解(第一列)、基于文本的定位(第二列)和对象检测任务(第三列)。FindIt 在对训练期间未知的对象类型和类别进行测试时可以准确响应,例如“找到桌子”(第四列)。我们展示了MattNet结果以供比较。

视频问答领域(例如,给定一个烘焙视频,能够回答“倒入碗中的第二种原料是什么? ”这样的问题)需要能够理解文本输入(问题)和视频输入(相关视频)以产生文本答案。在“通过迭代共标记实现高效的视频文本学习”中,多流视频输入(即同一视频输入的不同版本(例如,高分辨率、低帧率视频和低分辨率、高帧率视频))与文本输入高效融合在一起,由解码器产生基于文本的答案。视频文本迭代共标记模型不是直接处理输入,而是从融合的视频语言输入中学习较少数量的有用标记。此过程以迭代方式完成,允许当前特征标记影响下一次迭代中的标记选择,从而优化选择。

视频问答任务“倒入碗中的第二种配料是什么?”的示例输入问题,需要对视觉和文本输入有更深入的理解。该视频是50 Salads 数据集中的一个示例,根据Creative Commons 许可使用。

创建高质量视频内容的过程通常包括多个阶段,从视频捕捉到视频和音频编辑。在某些情况下,对话会在演播室重新录制(称为对话替换、后期同步或配音)以实现高质量并替换可能在嘈杂或其他次优条件下录制的原始音频。但是,对话替换过程可能很困难且繁琐,因为新录制的音频需要与视频很好地同步,通常需要进行多次编辑才能匹配嘴部动作的准确时间。在“ VDTTS:视觉驱动的文本转语音”中,我们探索了一种多模式模型,以更轻松地完成此任务。给定所需的文本和说话者的原始视频帧,该模型可以生成与视频匹配的文本的语音输出,同时恢复韵律的各个方面,例如时间或情感。该系统在与视频同步、语音质量和语音音调相关的各种指标上均显示出显着的改进。有趣的是,该模型可以产生视频同步的语音,而无需在模型训练中添加任何明确的约束或损失来促进这一点。

原来的 虚拟模拟测试系统 VDTTS 仅限视频 语音合成

原始显示原始视频片段。VDTTS显示使用视频帧和文本作为输入预测的音频。VDTTS 纯视频显示仅使用视频帧的音频预测。TTS显示仅使用文本的音频预测。抄本:“非常喜欢跳舞,我没有任何舞蹈经验,但就是这样”。

在“看与说:与 Google 助理进行自然对话”中,我们展示了设备上的多模式模型如何使用视频和音频输入使与 Google 助理的互动更加自然。该模型会学习使用多种视觉和听觉提示,例如注视方向、接近度、面部匹配、语音匹配和意图分类,以更准确地确定附近的人是否真的想与 Google 助理设备对话,或者只是碰巧在设备附近说话而无意让设备采取任何行动。如果只使用音频或视觉特征,这种判断会困难得多。

多模态模型不必局限于仅仅结合以人为本的模态,如自然语言或图像,它们对于现实世界的自动驾驶汽车和机器人应用越来越重要。在这种情况下,这种模型可以获取与人类感官不同的传感器的原始输出,例如来自自动驾驶汽车上激光雷达单元的 3-D 点云数据,并将其与来自其他传感器(如车载摄像头)的数据相结合,以更好地了解周围环境并做出更好的决策。在“用于学习 3D 和图像输入的 4D-Net中,来自激光雷达的 3-D 点云数据与来自摄像头的 RGB 数据实时融合,使用自注意力机制控制特征如何混合在一起并在不同层上加权。不同模态的组合和面向时间的特征的使用,与单独使用任何一种模态相比,大大提高了 3-D 物体识别的准确性。关于激光雷达-相机融合的最新研究通过逆增强引入了可学习的对齐和更好的几何处理,以进一步提高 3-D 物体识别的准确性。

4D-Net 有效地将 3D LiDAR 点云与 RGB 图像及时结合起来,并以视频的形式及时传输,学习不同传感器之间的联系及其特征表示。

拥有能够流畅地、根据语境理解多种不同模态并能够在该语境中生成多种不同类型输出(例如语言、图像或语音)的单一模型,是机器学习的一种更加实用、通用的框架。我们对此感到兴奋,因为它将在许多 Google 产品中实现令人兴奋的新应用,并推动健康、科学、创意、机器人等领域的发展!

顶部

生成模型

2022 年,图像、视频和音频生成模型的质量和功能取得了真正令人惊叹和非凡的进步。生成模型的方法多种多样,必须学会对复杂的数据集(例如自然图像)进行建模。2014 年开发的生成对抗网络建立了两个相互对抗的模型。一个是生成器,它试图生成一个看起来逼真的图像(可能以模型的输入为条件,例如要生成的图像类别),另一个是鉴别器,给定生成的图像和真实图像,并试图确定两者中哪个是生成的,哪个是真实的,因此具有对抗性。每个模型都在努力在与另一个模型的竞争中获胜,从而使两个模型在任务上都变得越来越好,最后,生成模型可以单独用于生成图像。

过去十年生成图像模型能力的进步。

左图:来自I. Goodfellow 等人 2014 年。中图:来自M. Lucic 等人 2019 年。右图:来自Imagen。

2015 年的《利用非平衡热力学的深度无监督学习》 中引入了扩散模型,该模型通过迭代的前向扩散过程系统地、缓慢地破坏数据分布的结构。然后,它们学习一个反向扩散过程,该过程可以恢复丢失的数据结构,即使在高噪声水平下也是如此。前向过程可用于根据模型中各种有用的、可控的输入为反向扩散过程生成噪声起点,从而使反向扩散(生成)过程变得可控。这意味着可以要求模型“生成一个葡萄柚的图像”,如果您确实需要的是葡萄柚图像的样本,那么 这项功能比仅仅“生成图像”要有用得多。

各种形式的自回归模型也已应用于图像生成任务。2016 年,“像素循环神经网络”引入了循环架构 PixelRNN 和类似但更高效的卷积架构 PixelCNN,后者也在“使用 PixelCNN 解码器进行条件图像生成”中进行了研究。这两种架构为使用深度神经网络进行像素级生成奠定了基础。紧随其后的是 2017 年的“神经离散表示学习”中提出的 VQ-VAE,这是一种矢量量化变分自动编码器。将其与 PixelCNN 相结合可产生高质量图像。然后,在 2018 年,Image Transformer使用自回归 Transformer 模型来生成图像。

直到最近,所有这些图像生成技术都只能生成与真实世界图像相比质量相对较低的图像。然而,最近的几项进展为更好的图像生成性能打开了大门。其中之一是对比语言-图像预训练 (CLIP),这是一种联合训练图像编码器和文本解码器以预测 [图像,文本] 对的预训练方法。这种预测哪个标题与哪个图像相匹配的预训练任务被证明是一种学习图像表示的有效且可扩展的方法,并且在 ImageNet 等数据集上获得了良好的零样本性能。

除了 CLIP,生成图像模型工具包最近也得到了发展。大型语言模型编码器已被证明能够有效地根据较长的自然语言描述而不是有限数量的预设图像类别来调节图像生成。图像和附带字幕的训练数据集显著增大(可以反转为文本→图像样本),从而提高了整体性能。所有这些因素共同催生了一系列能够生成高分辨率图像的模型,这些模型甚至能够严格遵循非常详细和奇妙的提示。

我们重点关注 Google Research 团队Imagen和Parti的两项最新进展。

Imagen 基于上面讨论的 Diffusion 工作。在他们 2022 年的论文“具有深度语言理解的逼真的文本到图像扩散模型”中,作者表明,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在对文本进行编码以进行图像合成方面出奇地有效。有点令人惊讶的是,增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。这项工作为基于扩散的图像生成提供了几项进展,包括一种称为高效 U-Net的新内存高效架构和无分类器扩散指导,它通过在训练期间偶尔“丢弃”条件信息来提高性能。无分类器指导迫使模型学习仅从输入数据生成,从而帮助它避免因过度依赖条件信息而产生的问题。“指导:扩散模型的秘籍”提供了很好的解释。

Parti使用自回归 Transformer 架构根据文本输入生成图像像素。在 2021 年发布的“使用改进的 VQGAN 进行矢量量化图像建模”中,基于Vision Transformer 的编码器被证明可以显著改善矢量量化 GAN 模型VQGAN的输出。这在 2022 年发布的“缩放自回归模型以生成内容丰富的文本到图像”中得到了扩展,通过将 Transformer 编码器解码器缩放到 20B 个参数可以获得更好的结果。Parti 还使用上面描述的无分类器指导来锐化生成的图像。考虑到它是一个语言模型,Parti 特别擅长捕捉提示中的微妙线索,这也许并不奇怪。

左图: Imagen 根据复杂提示生成的图像,“皇家城堡的一面墙。墙上有两幅画。左边的一幅是皇家浣熊王的详细油画。右边的一幅是皇家浣熊女王的详细油画。” 右图

: Parti 根据提示生成的图像,“一只戴着摩托车头盔和披着斗篷的泰迪熊在纽约市的出租车上冲浪。数码单反相机照片。”

用户控制

上述进展使得基于文本描述生成逼真的静态图像成为可能。但是,有时仅靠文本不足以让您创建想要的内容 — — 例如,考虑“海滩上一只狗被一只独角兽追赶”与“海滩上我的狗被一只独角兽追赶”。因此,我们进行了后续研究,为用户提供了控制生成过程的新方法。在“ DreamBooth:微调文本到图像扩散模型以实现主题驱动生成”中,用户可以微调经过训练的模型(如 Imagen 或 Parti),以基于文本和用户提供的图像的组合生成新图像(如下所示,DreamBooth网站上有更多详细信息和示例)。这允许用户将他们自己的图像(或例如他们的宠物)放入生成的图像中,从而允许更多的用户控制。这在“带有交叉注意控制的提示到提示图像编辑”中得到了体现,用户可以使用“将汽车变成自行车”之类的文本提示来编辑图像,而在Imagen Editor中,用户可以使用文本提示填充遮罩区域来迭代编辑图像。

DreamBooth 可以使用输入图像和文本提示来控制图像生成过程。

生成视频

我们正在应对的下一个研究挑战之一是创建视频生成模型,该模型可以生成高分辨率、高质量、时间一致且可控性高的视频。这是一个非常具有挑战性的领域,因为与图像不同,图像的挑战是将图像的所需属性与生成的像素相匹配,而视频则增加了时间维度。不仅每帧中的所有像素必须与视频中当前应该发生的事情相匹配,还必须与其他帧保持一致,既要非常细粒度(相隔几帧,这样运动看起来流畅自然),也要粗粒度(如果我们要求制作一架飞机起飞、盘旋和降落的两分钟视频,我们必须制作数千帧与这一高级视频目标一致的帧)。今年,我们通过Imagen Video和Phenaki两项努力,在这一崇高目标上取得了相当多的令人振奋的进展,每一项都采用了略有不同的方法。

Imagen Video 使用级联扩散模型生成高分辨率视频(在“ Imagen Video:通过扩散模型生成高清视频”中有更详细的描述)。第一步是输入一个文本提示(“一头戴着生日帽的快乐大象在海底行走”),然后使用T5文本编码器将其编码为文本嵌入。然后,基础视频扩散模型会以 40×24 的分辨率和每秒 3 帧的速度生成一个非常粗略的 16 帧视频。然后是多个时间超分辨率 (TSR) 和空间超分辨率 (SSR) 模型进行上采样,并以 1280×768 的分辨率和每秒 24 帧的速度生成最终的 128 帧视频,从而产生 5.3 秒的高清视频。生成的视频分辨率高,在空间和时间上一致,但仍然很短,大约 5 秒长。

2022 年发布的“ Phenaki:从开放域文本描述生成可变长度视频”介绍了一种用于学习视频表示的基于 Transformer 的新模型,该模型将视频压缩为离散标记的小表示。通过训练双向 Transformer 模型以基于文本描述生成视频标记来实现文本调节。然后解码这些生成的视频标记以创建实际视频。由于该模型在时间上具有因果关系,因此可用于生成可变长度的视频。这为多提示讲故事打开了大门,如下面的视频所示。

Phenaki 视频是根据复杂的提示生成的,“一只逼真的泰迪熊正在旧金山的海里游泳。泰迪熊潜入水中。泰迪熊继续在水下与五颜六色的鱼一起游泳。一只熊猫在水下游泳。”

可以将 Imagen Video 和 Phenaki 模型结合起来,以便同时利用 Imagen 的高分辨率单帧和 Phenaki 的长视频。最直接的方法是使用 Imagen Video 处理短视频片段的超分辨率,同时依靠自回归 Phenaki 模型生成长时间尺度的视频信息。

生成音频

除了面向视觉的生成模型外,我们在音频生成模型方面也取得了重大进展。在“ AudioLM,一种用于音频生成的语言建模方法”(及其随附论文)中,我们描述了如何利用语言建模方面的进步来生成音频,而无需使用带注释的数据进行训练。使用语言建模方法处理原始音频数据(而不是文本数据)会带来许多需要解决的挑战。

首先,音频的数据速率明显更高,因此序列更长——虽然一个书面句子可以用几十个字符来表示,但其音频波形通常包含数十万个值。其次,文本和音频之间存在一对多关系。这意味着,不同的说话者,不同的说话风格、不同的情感内容和其他音频背景条件,可能会以不同的方式说出同一句话。

为了解决这个问题,我们将音频生成过程分为两个步骤。第一步涉及一系列粗略的语义标记,这些标记既可以捕获局部依赖关系(例如语音中的语音、钢琴音乐中的局部旋律),也可以捕获全局长期结构(例如语音中的语法和语义内容、钢琴音乐中的和声和节奏),同时对音频信号进行大量下采样以允许对长序列进行建模。模型的一部分根据这些标记的过去序列生成一系列粗略的语义标记。然后,我们依靠模型的一部分,该部分可以使用一系列粗略的标记来生成接近最终生成的波形的细粒度音频标记。

在对语音进行训练时,无需任何转录或注释,AudioLM 可以生成语法和语义上合理的语音连续性,同时还能为未见过的说话者保留说话者身份和韵律。AudioLM 还可用于生成连贯的钢琴音乐连续性,尽管在没有任何音乐符号表示的情况下进行训练。您可以在此处收听更多示例。

关于生成模型的总结

2022 年带来了媒体生成方面的令人振奋的进步。计算机现在可以与自然语言交互,更好地理解您的创作过程以及您可能想要创作的内容。这为计算机帮助用户创建图像、视频和音频开辟了令人兴奋的新方式——超越了传统工具的限制!

这激发了更多研究兴趣,研究用户如何控制生成过程。文本转图像和文本转视频的进步使语言成为控制生成的强大方式,而像Dream Booth这样的工作使用户能够用自己的图像启动生成过程。2023 年及以后,媒体生成本身的质量和速度必将有所提高。除了这些进步之外,我们还将看到新的用户体验,从而实现更多的创意表达。

值得注意的是,尽管这些创意工具在帮助人类完成创意任务方面具有巨大潜力,但它们也带来了一些担忧——它们可能会生成各种有害内容,或者生成难以与现实区分的虚假图像或音频内容。在决定何时以及如何负责任地部署这些模型时,我们会仔细考虑这些问题。 

顶部

负责任的人工智能

必须负责任地追求人工智能。强大的语言模型可以帮助人们完成许多任务,但如果不小心,它们也会生成错误信息或有害文本。生成模型可以用于令人惊叹的创意目的,使人们能够以新颖而神奇的方式展现他们的想象力,但它们也可用于创建有害图像或从未发生过的事件的逼真图像。

这些都是需要努力解决的复杂问题。机器学习和人工智能领域的领导者不仅要在最先进的技术方面发挥引领作用,还要在责任和实施方面发挥引领作用。2018 年,我们是首批阐明人工智能原则的公司之一,将有益使用、用户、安全和避免危害放在首位,并且我们还开创了许多最佳实践,例如使用模型和数据卡。我们不仅仅将人工智能原则写在纸上,还将人工智能原则应用于实践。您可以在此处查看我们最新的人工智能原则进展更新,包括文本到图像生成模型的案例研究、避免翻译中性别偏见的技术以及更具包容性和公平性的评估肤色。2021年、2020 年和2019 年发布了类似的更新。在我们大胆而负责任地追求人工智能的同时,我们继续向用户、其他研究人员、受影响的社区和我们的经验中学习。

我们的负责任的人工智能方法包括以下内容:

专注于有用且造福用户和社会的人工智能。

有意应用我们的人工智能原则(以有益用途和避免伤害为基础)、流程和治理来指导我们在人工智能领域的工作,从研究重点到产品化和用途。

将科学方法应用于人工智能研发, 采用研究严谨性、同行评审、准备情况审查以及负责任的访问和外部化方法。

与多学科专家合作, 包括 社会科学家、伦理学家和其他具有社会技术专业知识的团队。

倾听、学习并根据开发人员、用户、政府和受影响社区代表的反馈进行改进。

定期审查 我们的人工智能研究和应用开发,包括用例。公开我们所学到的知识。

密切关注当前和不断发展的关注和风险领域 (例如安全性、偏见和毒性),并解决、研究和创新以应对出现的挑战和风险。

引领并帮助塑造负责任的 治理、问责和监管,以鼓励创新、最大限度地发挥人工智能的优势并降低风险。

帮助用户和社会了解什么是人工智能(以及不是什么人工智能)以及如何从其潜力中受益。

在后续的博客文章中,我们负责任的人工智能团队的领导将更详细地讨论 2022 年的工作以及他们对未来几年该领域的愿景。

结论

我们对上述变革性进步感到兴奋,其中许多进步正在应用于使 Google 产品对数十亿用户更有帮助,包括搜索、助理、广告、云、Gmail、地图、YouTube、Workspace、Android、Pixel、Nest 和翻译。这些最新进步正在融入实际的用户体验,并将极大地改变我们与计算机的交互方式。

在语言模型领域,得益于我们发明的Transformer模型和序列到序列学习等技术进步,人们可以进行自然对话(与计算机!),并得到出乎意料的良好回应(来自计算机!)。得益于计算机视觉领域的新方法,计算机可以帮助人们在 3D 而非 2D 中创建和交互。得益于生成模型的新进展,计算机可以帮助人们创建图像、视频和音频,而这些方式是他们以前无法使用传统工具(例如键盘和鼠标)实现的。结合自然语言理解等技术进步,计算机可以理解您要创建的内容,并帮助您实现出乎意料的好结果!

另一个改变人们与计算机交互方式的转变是多模态模型功能的不断增强。我们正在努力创建一个能够流畅地理解许多不同模态的单一模型——理解每种模态在上下文中代表什么——然后在该上下文中实际生成不同的模式。我们对这一目标的进展感到兴奋!例如,我们引入了一个统一的语言模型,它可以用 100 多种语言执行视觉、语言、问答和对象检测任务,并在各种基准测试中取得最先进的结果。在未来的应用中,人们可以调动更多的感官来让计算机做他们想做的事情——例如,“用斯瓦希里语描述这张图片”。我们已经证明,设备上的多模态模型可以让与 Google Assistant 的交互更加自然。我们还展示了可以以各种组合生成由自然语言、图像和音频控制的图像、视频和音频的模型。这个领域还有更多令人兴奋的事情!

在我们创新的同时,我们对用户和社会负有责任,要根据我们的人工智能原则,认真追求和开发这些新技术。我们仅仅开发最先进的技术是不够的,我们还必须确保它们是安全的,然后才能将它们广泛地发布到世界上,我们非常重视这一责任。

人工智能的新进展为我们展现了令人兴奋的新视野,让我们看到了计算机如何帮助人们完成工作的新方法。对于 Google 来说,许多新方法将增强或改变我们长期以来的使命,即组织世界信息,使之普遍可访问和有用。20 多年后,我们相信这一使命一如既往地大胆。今天,让我们兴奋的是,我们如何应用人工智能的许多进展来增强和改变用户体验——帮助更多人更好地了解他们周围的世界并完成更多的事情。这是我对计算机的长期愿景!

致谢

感谢 Google 整个研究社区对这项工作的贡献!此外,我还要特别感谢在本文撰写过程中提供宝贵反馈意见并将为本系列其他文章做出贡献的众多 Google 员工,其中包括 Martin Abadi、Ryan Babbush、Vivek Bandyopadhyay、Kendra Byrne、Esmeralda Cardenas、Alison Carroll、Zhifeng Chen、Charina Chou、Lucy Colwell、Greg Corrado、Corinna Cortes、Marian Croak、Tulsee Doshi、Toju Duke、Doug Eck、Sepi Hejazi Moghadam、Pritish Kamath、Julian Kelly、Sanjiv Kumar、Ronit Levavi Morad、Pasin Manurangsi、Yossi Matias、Kathy Meier-Hellstern、Vahab Mirrokni、Hartmut Neven、Adam Paszke、David Patterson、Mangpo Phothilimthana、John Platt、Ben Poole、Tom Small、Vadim Smelyanskiy、Vincent Vanhoucke 以及叶莱斯利。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论