Google 研究将参加 I/O 2023_商业应用

5 月 10 日星期三是Google 研究社区激动人心的一天，因为我们看到数月和数年来的基础和应用工作成果在Google I/O舞台上公布。由于舞台上发布公告的速度很快，我们很难传达出我们所展示的技术背后的大量努力和独特创新。所以今天，我们很高兴能透露更多关于今年 I/O 大会上许多引人注目的公告背后的研究成果。

帕拉姆2

我们的下一代大型语言模型 (LLM) PaLM 2建立在计算优化扩展、扩展指令微调和改进的数据集混合方面的进步之上。通过针对不同目的对模型进行微调和指令微调，我们已经能够将最先进的功能集成到 25 多种 Google 产品和功能中，它已经在帮助通知、协助和取悦用户。例如：

Bard是一项早期实验，它可让您与生成式 AI 协作，有助于提高生产力、加速创意并激发好奇心。它以深度学习效率的进步为基础，并利用从人类反馈中进行强化学习来提供更相关的响应并提高模型遵循指令的能力。Bard 现已在 180 个国家/地区推出，用户可以用英语、日语和韩语与其互动，而且得益于 PaLM 2 提供的多语言功能，即将支持 40 种语言。

借助搜索生成体验，我们可以减少搜索工作量，让您能够更快地了解主题、发现新的观点和见解，并更轻松地完成工作。作为这项实验的一部分，您将看到由 AI 提供支持的关键信息快照，其中包含可供深入挖掘的链接。

MakerSuite是一个易于使用的PaLM API原型环境，由 PaLM 2 提供支持。事实上，内部用户对 MakerSuite 早期原型的参与加速了我们 PaLM 2 模型本身的开发。MakerSuite 源于专注于提示工具或专门为自定义和控制 LLM 而设计的工具的研究。这一系列研究包括PromptMaker（MakerSuite 的前身）以及AI Chains和PromptChainer（首批展示 LLM 链接实用性的研究成果之一）。

Tailwind项目还利用 MakerSuite 的早期研究原型来开发功能，帮助作家和研究人员探索想法并改进他们的散文；其 AI-first 笔记本原型使用 PaLM 2 允许用户根据他们定义的文档向模型提出问题。

Med-PaLM 2是我们最先进的医学法学硕士课程，以 PaLM 2 为基础。Med-PaLM 2 在美国医师执照考试题型中取得了86.5% 的成绩，表明其在医疗领域具有巨大的潜力。我们目前正在探索多模式功能，以合成 X 射线等输入。

Codey是 PaLM 2 的一个版本，在源代码上进行了微调，可用作开发人员助手。它支持广泛的Code AI功能，包括代码完成、代码解释、错误修复、源代码迁移、错误解释等。Codey 可通过我们值得信赖的测试程序通过 IDE（Colab、Android Studio、Duet AI for Cloud、Firebase）和面向 3P 的 API使用。

对于开发人员来说，更令人兴奋的可能是，我们开放了PaLM API 和 MakerSuite，为社区提供利用这项突破性技术进行创新的机会。

PaLM 2 具有先进的编码功能，使其能够查找代码错误并以多种不同的语言提出建议。

图像

我们的Imagen 系列图像生成和编辑模型建立在大型Transformer语言模型和扩散模型的进步之上。该模型系列已被整合到多个 Google 产品中，包括：

Google Slides中的图像生成和 Android 的生成式 AI 壁纸均由我们的文本到图像生成功能提供支持。

Google Cloud 的 Vertex AI支持图像生成、图像编辑、图像升级和微调，以帮助企业客户满足其业务需求。

I/O Flip是一款数字版的经典纸牌游戏，其特色是 Google 开发者吉祥物出现在完全由人工智能生成的纸牌上。这款游戏展示了一种名为DreamBooth的微调技术，用于调整预先训练的图像生成模型。只需使用少量图像作为微调的输入，用户就可以在几分钟内生成个性化图像。借助 DreamBooth，用户可以合成参考图像中未出现的各种场景、姿势、视图和光照条件下的主体。

I/O Flip 展示了使用 DreamBooth 设计的定制卡片组。

费纳基

Phenaki是 Google 基于 Transformer 的文本转视频生成模型，在 I/O 预展中进行了展示。Phenaki 是一种能够通过利用两个主要组件从文本提示序列合成逼真视频的模型：将视频压缩为离散嵌入的编码器-解码器模型和将文本嵌入转换为视频标记的转换器模型。

ARCore 和场景语义 API

在 I/O 大会上，AR 团队宣布了ARCore 的多项新功能，其中Scene Semantic API可以识别户外场景中的像素级语义。这可以帮助用户根据周围区域的特征创建自定义 AR 体验。此 API 由户外语义分割模型提供支持，利用了我们最近围绕 DeepLab 架构和以自我为中心的户外场景理解数据集所做的工作。最新的 ARCore 版本还包括一个改进的单目深度模型，可在户外场景中提供更高的准确度。

场景语义 API 使用基于 DeepLab 的语义分割模型在户外场景中提供准确的像素标签。

叽叽喳喳

Chirp是 Google 最先进的通用语音模型系列，经过 1200 万小时的语音训练，可对 100 多种语言进行自动语音识别 (ASR)。除了英语和普通话等广泛使用的语言外，这些模型还可以对资源匮乏的语言（如阿姆哈拉语、宿务语和阿萨姆语）执行 ASR。Chirp 能够覆盖如此多种语言，方法是利用未标记的多语言数据集上的自监督学习，并对较小的一组标记数据进行微调。Chirp 现已在 Google Cloud Speech-to-Text API中提供，允许用户通过简单的界面对模型执行推理。您可以在此处开始使用 Chirp 。

音乐流

在 I/O 大会上，我们推出了MusicLM，这是一款文本转音乐模型，可根据文本提示生成 20 秒的音乐。您可以在 AI Test Kitchen 上亲自尝试，也可以在 I/O 预演期间观看它的演示，电子音乐家兼作曲家Dan Deacon在他的表演中使用了 MusicLM。

MusicLM 由AudioLM和MuLAN支持的模型组成，可以制作音乐（来自文本、哼唱、图像或视频）和歌唱伴奏。AudioLM 可生成具有长期一致性的高质量音频。它将音频映射到一系列离散标记，并将音频生成作为语言建模任务。为了高效地合成更长的输出，它使用了我们开发的一种名为SoundStorm的新方法。

通用翻译器配音

我们的配音工作利用了数十种机器学习技术来翻译各种富有表现力的视频内容，让世界各地的观众都能观看视频。这些技术已被用于为各种产品和内容类型的视频配音，包括教育内容、广告活动和创作者内容，未来还会有更多。我们使用深度学习技术来实现语音保留和口型匹配，并实现高质量的视频翻译。我们在构建此产品时加入了人工审核以确保质量，并进行安全检查以防止滥用，并且我们只向授权合作伙伴提供此产品。

人工智能造福全球社会

我们正在应用人工智能技术来解决一些全球性重大挑战，如缓解气候变化、适应全球变暖以及改善人类健康和福祉。例如：

交通工程师使用我们的绿灯建议来减少路口的走走停停交通，改善从班加罗尔到里约热内卢和汉堡等城市的交通流量。绿灯会为每个路口建模，分析交通模式以制定提高交通信号灯效率的建议 - 例如，更好地同步相邻信号灯之间的时间，或调整特定街道和方向的“绿灯时间”。

我们还将洪水中心的全球覆盖范围扩大到 80 个国家，作为我们预测河流洪水并在灾难发生前向即将受到影响的人们发出警报的努力的一部分。我们的洪水预报工作依赖于由卫星观测、天气预报和现场测量得出的水文模型。

包容且公平的机器学习应用技术

随着我们对人工智能技术的持续投入，我们强调负责任的人工智能开发，目标是让我们的模型和工具变得有用且有影响力，同时确保公平、安全并符合我们的人工智能原则。I/O 大会重点介绍了其中一些努力，包括：

发布Monk Skin Tone Examples (MST-E) 数据集，帮助从业者更深入地了解 MST 量表，并训练人工注释者进行更一致、更包容、更有意义的肤色注释。您可以在我们的网站上阅读有关此和其他发展的更多信息。这是我们去年发布的Monk Skin Tone (MST) 量表开源版本的一项进步，旨在使开发人员能够构建更具包容性的产品，更好地代表其多样化的用户。

这是一项新的 Kaggle 竞赛（开放至 8 月 10 日），其中 ML 社区的任务是创建一个模型，该模型可以快速准确地识别美国手语 (ASL) 手指拼写（用一只手快速用 ASL 拼写出单词的每个字母，而不是使用特定手势来表示整个单词）并将其翻译成书面文本。详细了解手指拼写 Kaggle 竞赛，该竞赛以聋哑音乐家和说唱歌手Sean Forbes的一首歌曲为特色。我们还在 I/O 上展示了去年竞赛的获胜算法，该算法为PopSign提供支持，PopSign 是一款由佐治亚理工学院和罗彻斯特理工学院 (RIT) 为聋哑或听力障碍儿童的父母开发的 ASL 学习应用程序。

共同构建人工智能的未来

能够加入这样一个由众多才华横溢的人才组成的社区，并引领开发最先进的技术、负责任的 AI 方法和令人兴奋的用户体验，真是令人振奋。我们正处于 AI 令人难以置信的变革时期。请继续关注 Google 研究社区如何大胆探索这些技术的前沿，并负责任地使用它们来造福世界各地人民的生活。我们希望您和我们一样对 AI 技术的未来感到兴奋，我们邀请您通过我们在此处重点介绍的参考资料、网站和工具与我们的团队互动。

Google 研究将参加 I/O 2023

版权声明

相关推荐

评论