2023 年:人工智能和计算领域取得突破性进展的一年

)QXMDM@`O)WU73]6T`V$R}6.png

这是人工智能(AI)研究及其实际应用领域取得令人难以置信的进步的一年。

随着持续的研究推动人工智能进一步发展,我们回顾了今年 1 月发表的 观点,题为“我们为什么关注人工智能(以及关注的目的)”,其中我们指出:

我们致力于引领和制定开发和发布有用且有益的应用程序的标准,运用以人类价值观为基础的道德原则,并在从研究、经验、用户和更广泛的社区中学习的过程中不断发展我们的方法。

我们还认为,正确发展人工智能——对我们来说,这涉及创新和为人类和社会带来广泛可及的利益,同时降低其风险——必须是我们和其他人共同努力的结果,包括研究人员、开发人员、用户(个人、企业和其他组织)、政府、监管机构和公民。

我们坚信,我们专注于大胆而负责任地开发和提供的人工智能创新是实用的、引人注目的,并有可能帮助和改善世界各地人们的生活——这就是我们前进的动力。

在这篇年度回顾文章中,我们将回顾 Google Research 和 Google DeepMind 在 2023 年将这些段落安全地付诸实践的一些努力。

产品和技术的进步

这一年,生成式人工智能吸引了全世界的注意力,它创造了图像、音乐、故事,以及关于一切可以想象到的事物的引人入胜的对话,其创造力和速度在几年前几乎令人难以置信。

今年 2 月,我们首次推出了 Bard,这是一款可以用来探索创意和简单解释事物的工具。它可以生成文本、翻译语言、编写不同类型的创意内容等等。

五月份,我们在 Google I/O 大会上见证了数月和数年来基础和应用工作的成果。其中主要包括PaLM 2,这是一个大型语言模型 (LLM),它结合了计算优化扩展、改进的数据集混合和模型架构,可在高级推理任务中表现出色。

通过针对不同目的对 PaLM 2 进行微调和指令调整,我们能够将其集成到众多 Google 产品和功能中,其中包括:

Bard 进行了更新,启用了多语言功能。自首次推出以来,Bard 现已支持40 多种语言,覆盖 230 多个国家和地区,借助扩展程序,Bard 可以查找和显示日常使用的 Google 工具(如 Gmail、Google 地图、YouTube 等)中的相关信息。

搜索生成体验(SGE),利用 LLM 重新构想如何组织信息以及如何帮助人们浏览信息,为我们的核心搜索产品创建更流畅、更具对话性的交互模型。这项工作将搜索引擎体验从主要侧重于信息检索扩展到更多方面 — 能够检索、综合、创造性生成和延续之前的搜索 — 同时继续充当用户和他们所寻找的 Web 内容之间的连接点。

MusicLM ,一个由AudioLM和MuLAN提供支持的文本转音乐模型,可以将文本、哼唱、图像或视频制作成音乐,并为歌唱添加音乐伴奏。

Duet AI 是我们基于 AI 的协作工具,可在用户使用 Google Workspace 和 Google Cloud 时为他们提供帮助。例如,Google Workspace 中的 Duet AI可帮助用户编写、创建图像、分析电子表格、起草和总结电子邮件和聊天消息以及总结会议内容。Google Cloud 中的 Duet AI可帮助用户编写、部署、扩展和监控应用程序,以及识别和加速解决网络安全威胁。

还有许多其他发展。

继去年发布文本转图像生成模型Imagen之后,今年 6 月,我们又发布了Imagen Editor,它能够使用区域蒙版和自然语言提示以交互方式编辑生成图像,从而对模型输出进行更精确的控制。

今年晚些时候,我们发布了 Imagen 2,它通过基于人类对良好光照、取景、曝光和清晰度等品质的偏好的专门图像美学模型改进了输出。

10 月份,我们推出了一项功能,帮助人们练习口语并提高语言技能。实现此功能的关键技术是与 Google 翻译团队合作开发的一种新型深度学习模型,称为 Deep Aligner。这一新模型显著提高了所有测试语言对的对齐质量,与基于隐马尔可夫模型(HMM) 的对齐方法相比,平均对齐错误率从 25% 降低到 5%。

11 月,我们与YouTube 合作,发布了迄今为止最先进的 AI 音乐生成模型Lyria 。我们发布了两个旨在为创造力开辟新游乐场的实验,即 DreamTrack 和音乐 AI 工具,以配合YouTube 与音乐行业在 AI 技术方面合作的原则。

随后在 12 月,我们推出了Gemini,这是我们最强大、最通用的 AI 模型。Gemini 从一开始就被设计为跨文本、音频、图像和视频的多模式模型。我们最初的 Gemini 模型系列有三种不同的尺寸,分别是 Nano、Pro 和 Ultra。Nano 模型是我们最小、最高效的模型,用于为 Pixel 等产品提供设备体验。Pro 模型功能强大,最适合在各种任务中进行扩展。Ultra 模型是我们最大、功能最强大的模型,适用于高度复杂的任务。

在一份关于Gemini 模型的技术报告中,我们展示了 Gemini Ultra 的性能在 LLM 研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了当前最先进的结果。Gemini Ultra 以 90.04% 的得分成为第一个在MMLU上超越人类专家的模型,并在新的MMMU基准上取得了 59.4% 的最先进的得分。

在AlphaCode的 基础上,我们推出了由 Gemini 专门版本驱动的 AlphaCode 2 ,AlphaCode是首个在竞争性编程中表现与中级竞争对手相当的 AI 系统。在与原始 AlphaCode 相同的平台上进行评估时,我们发现 AlphaCode 2 解决的问题数量是原始 AlphaCode 的 1.7 倍,表现优于 85% 的竞赛参与者

与此同时,Bard通过使用 Gemini Pro 模型实现了最大的升级,使其在理解、总结、推理、编码和规划等方面的能力大大增强。在八个基准测试中的六个中,Gemini Pro 的表现优于 GPT-3.5,包括衡量大型 AI 模型的关键标准之一 MMLU 和衡量小学数学推理的GSM8K。Gemini Ultra 将于明年初通过 Bard Advanced(一种新的尖端 AI 体验)进入 Bard。

Gemini Pro 还可在Vertex AI上使用,这是 Google Cloud 的端到端 AI 平台,可帮助开发人员构建能够处理文本、代码、图像和视频信息的应用程序。Gemini Pro 也于 12 月在 AI Studio 中推出。

为了最好地说明 Gemini 的一些功能,我们制作了一系列简短的视频,解释 Gemini 如何实现以下功能:

解锁科学文献中的见解

在竞技编程方面表现出色

处理和理解原始音频

解释数学和物理中的推理

推断用户意图以产生定制体验

机器学习/人工智能研究

除了产品和技术方面的进步之外,我们还在机器学习和人工智能研究等更广泛的领域取得了许多重要进步。

最先进的 ML 模型的核心是 Transformer 模型架构,由 Google 研究人员于 2017 年开发。它最初是为语言开发的,现已证明在计算机视觉、音频、基因组学、蛋白质折叠等各个领域都很有用。今年,我们在扩展视觉转换器方面的工作在各种视觉任务中都展示了最先进的成果,并且在构建功能更强大的机器人方面也发挥了作用。

扩展模型的多功能性需要能够执行更高级和多步骤的推理。今年,我们通过多种研究途径实现了这一目标。例如,算法提示是一种新方法,它通过演示一系列算法步骤来教授语言模型推理,然后模型可以在新的环境中应用这些步骤。这种方法将一项中学数学基准的准确率从 25.9% 提高到了 61.1%。

通过提供算法提示,我们可以通过情境学习向模型传授算术规则。

在视觉问答领域,我们与加州大学伯克利分校的研究人员合作,展示了如何通过将视觉模型与经过训练的语言模型相结合来更好地回答复杂的视觉问题(“马车在马的右边吗?”),通过合成一个程序来执行多步骤推理,从而回答视觉问题。

我们现在使用一个了解软件开发生命周期的许多方面的通用模型来自动生成代码审查意见、响应代码审查意见、对代码片段提出性能改进建议(通过从其他环境中过去的此类更改中学习)、修复代码以响应编译错误等等。

在与 Google 地图团队多年的研究合作中,我们得以扩展逆向强化学习并将其应用于改善超过 10 亿用户的路线建议这一全球性问题。我们的工作最终使全球路线匹配率相对提高了 16-24%,有助于确保路线更好地符合用户偏好。

我们还在继续研究提高机器学习模型推理性能的技术。在研究神经网络中剪枝连接的计算友好方法时,我们能够设计出一种近似算法来解决计算困难的最佳子集选择问题,该算法能够从图像分类模型中剪枝 70% 的边缘,同时仍保留原始模型的几乎所有准确度。

在加速设备上扩散模型的工作中,我们还能够对注意力机制、卷积核和操作融合应用各种优化,从而使在设备上运行高质量图像生成模型变得切实可行;例如,在智能手机上仅用 12 秒就能生成“一张周围有花的可爱小狗的逼真高分辨率图像”。

语言和多模态模型的进步也使我们的机器人研究工作受益匪浅。我们将分别训练的语言、视觉和机器人控制模型组合成PaLM-E(一种用于机器人的具象多模态模型)和Robotic Transformer 2 (RT-2)(一种新颖的视觉-语言-动作 (VLA) 模型,该模型从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令)。

RT-2 架构和训练:我们根据机器人技术和网络数据共同微调预先训练的视觉语言模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。

此外,我们还展示了如何使用语言来控制四足机器人的步态,并探索了如何使用语言来帮助制定更明确的奖励函数,以弥合人类语言和机器人动作之间的差距。然后,我们在Barkour中对四足机器人的敏捷性极限进行了基准测试。

算法与优化

设计高效、稳健且可扩展的算法仍然是重中之重。今年,我们的工作包括:应用和可扩展算法、市场算法、系统效率和优化以及隐私。

我们推出了AlphaDev,这是一种使用强化学习来发现增强型计算机科学算法的人工智能系统。AlphaDev 发现了一种更快的排序算法,这是一种对数据进行排序的方法,它改进了 LLVM libc++ 排序库,使较短序列的排序速度提高了 70%,超过 250,000 个元素的序列的排序速度提高了约 1.7%。

我们开发了一种新模型来预测大型图的属性,从而能够评估大型程序的性能。我们发布了一个新的数据集TPUGraphs,以加速该领域的开放研究,并展示了如何使用现代 ML 来提高 ML 效率。

TPUGraphs 数据集拥有 4400 万张用于 ML 程序优化的图表。

我们开发了一种新的负载平衡算法,用于将查询分发到服务器,称为Prequal,该算法最小化了正在进行的请求组合并估计了延迟。跨多个系统的部署大大节省了 CPU、延迟和 RAM。我们还为具有容量预留的经典缓存问题 设计了一个新分析框架。

标准化 CPU 使用率热图  于 08:00转换到Prequal 。

我们通过开发用于计算最小割、近似相关聚类和大规模并行图聚类的新技术 ,改进了聚类和图算法的最新技术。此外,我们引入了TeraHAC,一种用于万亿边图的新型层次聚类算法,设计了一种在保持质量的同时具有更好可扩展性的文本聚类算法,并设计了最有效的近似倒角距离算法,倒角距离是多嵌入模型的标准相似性函数,与高度优化的精确算法相比,可提供 50 倍以上的加速,并可扩展到数十亿个点。

我们继续优化 Google 的大型嵌入模型 (LEM),这些模型为我们的许多核心产品和推荐系统提供支持。一些新技术包括用于网络规模 ML 系统中经过实战检验的特征表示的统一嵌入和顺序注意,它使用注意机制在训练期间发现高质量的稀疏模型架构。

除了自动竞价系统之外,我们还研究了其他复杂环境中的拍卖设计,例如多买机制、针对异质竞标者的拍卖、合同设计和创新的稳健在线竞价算法。受生成式 AI 在协作创作中的应用(例如,广告商的联合广告)的启发,我们提出了一种新颖的代币拍卖模型,其中 LLM 在协作 AI 创作中竞标影响力。最后,我们展示了如何在实验设计中减轻个性化影响,例如,这可能会导致建议随着时间的推移而发生变化。

Chrome 隐私沙盒是 Google Research 与 Chrome 多年合作的成果,现已公开发布了多个 API,包括受保护受众、主题和归因报告。这是在支持开放和自由网络生态系统的同时保护用户隐私的重要一步。这些努力得益于重新识别风险、私人流式计算、隐私上限和预算优化、分层聚合以及带有标签隐私的训练模型等方面的基础研究。

科学与社会

在不久的将来,人工智能应用于科学问题很有可能将某些领域的发现速度提高 10 倍、100 倍甚至更多,并在生物工程、材料科学、天气预报、气候预测、神经科学、基因医学和医疗保健等不同领域取得重大进步。

可持续性和气候变化

在“绿灯计划”中,我们与全球 13 个城市合作,帮助改善路口的交通流量并减少走走停停造成的排放。这些合作的早期数据显示,停车次数最多可减少 30%,排放量最多可减少 10%。

在我们的凝结尾迹研究工作中,我们分析了大规模天气数据、历史卫星图像和过去的飞行。我们训练了一个人工智能模型来预测凝结尾迹的形成位置并相应地改变飞机的航线。我们与美国航空公司和突破能源公司合作,使用该系统证明了凝结尾迹减少了 54%。

使用人工智能和 GOES-16 卫星图像探测到美国上空的飞机尾迹。

我们还正在开发新颖的技术驱动方法,帮助社区应对气候变化的影响。例如,我们已将洪水预报覆盖范围扩大到 80 个国家,直接影响到 4.6 亿多人。我们已开展多项研究工作,以帮助减轻日益增加的野火危险,包括使用卫星图像实时跟踪野火边界,以及改进面临迅速蔓延的野火风险的社区的紧急疏散计划。我们与美国森林协会的合作将我们的树冠项目数据应用于他们的树木公平评分平台,帮助社区识别和解决树木使用不平等的问题。

最后,我们继续开发更好的长期天气预报模型。在MetNet和MetNet-2的基础上,在今年的MetNet-3工作中,我们现在的表现优于长达 24 小时的传统数值天气模拟。在中期全球天气预报领域,我们在GraphCast上的工作表明,与欧洲中期天气预报中心(ECMWF)制作的最准确的确定性业务预报HRES相比,长达 10 天的预测准确度明显更高。我们与 ECMWF 合作发布了WeatherBench-2,这是一个在通用框架内评估天气预报准确性的基准。

GraphCast 的 10 天预测精选,显示了 700 百帕(地表以上约 3 公里)的特定湿度、地表温度和地表风速。

健康与生命科学

AI 在大幅改善医疗保健流程方面具有巨大的潜力。我们最初的Med-PaLM模型是第一个能够在美国医师执照考试中取得及格分数的模型。我们最近的Med-PaLM 2 模型又提高了 19%,达到了 86.5% 的专家级准确率。这些Med-PaLM 模型是基于语言的,使临床医生能够就复杂的医疗状况提出问题并进行对话,并且可以通过 Google Cloud 作为MedLM的一部分提供给医疗保健组织。

正如我们的通用语言模型不断发展以处理多种模态一样,我们最近展示了对Med-PaLM 多模态版本的研究,该版本能够解释医学图像、文本数据和其他模态,描述了我们如何实现人工智能模型的惊人潜力以帮助推进现实世界的临床护理。

Med-PaLM M 是一个大型多模态生成模型,可以灵活地以相同的模型权重对生物医学数据(包括临床语言、成像和基因组学)进行编码和解释。

我们还一直在研究如何在临床工作流程中最好地利用人工智能模型。我们已经证明,将深度学习与可解释性方法结合起来可以为临床医生带来新的见解。我们还证明,在仔细考虑隐私、安全、公平和道德的情况下,自我监督学习可以将训练临床相关医学成像模型所需的去识别数据量减少3 倍至 100 倍,从而降低在实际临床环境中采用模型的障碍。我们还发布了一个面向慢性病患者的开源移动数据收集平台,为社区提供开展自己研究的工具。

AI 系统还可以在现有的医疗数据中发现全新的信号和生物标记。在研究视网膜图像中发现的新型生物标记时,我们证明可以从外部眼部照片预测出涵盖多个器官系统(例如肾脏、血液、肝脏)的多种系统性生物标记。在其他研究中,我们表明,结合视网膜图像和基因组信息有助于识别一些潜在的衰老因素。

在基因组学领域,我们与来自 60 家机构的 119 位科学家合作,绘制了人类基因组(或泛基因组)的新图谱。这个更公平的泛基因组更好地代表了全球人口的基因组多样性。在我们开创性的AlphaFold工作的基础上,我们今年在AlphaMissense上的工作为所有 7100 万种可能的错义变异中的 89% 提供了一个预测目录,这些错义变异可能是致病的,也可能是良性的。

AlphaMissense 预测与 AlphaFold 预测结构叠加的示例(红色 - 预测为致病;蓝色 - 预测为良性;灰色 - 不确定)。红点代表已知的致病错义变异,蓝点代表已知的良性变异。 左图:  HBB 蛋白。该蛋白的变异可导致镰状细胞性贫血。 右图:  CFTR 蛋白。该蛋白的变异可导致囊性纤维化。

我们还分享了下一代 AlphaFold 的最新进展。我们最新的模型现在可以对蛋白质数据库(PDB) 中的几乎所有分子进行预测,通常达到原子级精度。这开启了新的理解,并显著提高了多个关键生物分子类别的准确性,包括配体(小分子)、蛋白质、核酸(DNA 和 RNA)以及含有翻译后修饰 (PTM) 的分子。

在神经科学方面,我们宣布与哈佛大学、普林斯顿大学、美国国立卫生研究院等机构开展新的合作,以突触分辨率绘制小鼠整个大脑的图像,第一阶段将重点关注海马结构——大脑中负责记忆形成、空间导航和其他重要功能的区域。

量子计算

量子计算机有潜力解决科学和工业领域的重大现实问题。但要发挥这一潜力,量子计算机必须比现在大得多,而且必须可靠地执行传统计算机无法执行的任务。

今年,我们朝着开发大规模实用量子计算机迈出了重要一步。我们的突破是首次演示量子纠错,表明有可能在增加量子比特数量的同时减少错误。为了实现实际应用,这些量子比特构建块必须更可靠地运行,将错误率从目前通常的约 10 3分之一降低到约 10 8 分之一。

负责任的人工智能研究

责任设计

生成式人工智能正在医疗保健、教育、安全、能源、交通、制造和娱乐等众多领域产生变革性影响。鉴于这些进步,设计符合我们人工智能原则的技术仍然是重中之重。我们最近还发布了以社会为中心的人工智能新兴实践案例研究。在我们的年度人工智能原则进展更新中,我们详细介绍了如何将我们的负责任人工智能研究融入产品和风险管理流程。

负责任的人工智能的主动设计始于识别和记录潜在危害。例如,我们最近引入了一个三层基于情境的框架,用于全面评估人工智能系统的社会和道德风险。在模型设计过程中,可以使用负责任的数据集来减轻危害。

我们正在与霍华德大学合作建立高质量的非裔美国人英语 (AAE) 数据集,以改进我们的产品并使其更好地服务于更多人。我们对全球包容性文化代表性的研究以及我们发布的僧侣肤色量表进一步推动了我们对所有人平等代表性的承诺。我们获得的见解和开发的技术不仅有助于我们改进自己的模型,而且还为大众媒体代表性的大规模研究提供支持,从而为世界各地更具包容性的内容创作提供信息和启发。

僧侣肤色 (MST) 量表。更多信息请访问 skintone.google。

随着生成图像模型的进步,公平和包容地代表人们仍然是重中之重。在开发过程中,我们正在努力扩大代表性不足的声音,并更好地整合社会背景知识。我们使用分类器和过滤器、仔细的数据集分析以及模型内缓解措施(例如微调、推理、少量提示、数据增强和受控解码)主动解决潜在的危害和偏见,我们的研究表明,生成式 AI 能够以更少的数据开发出更高质量的安全分类器。我们还发布了一种强大的方法,可以使用更少的数据更好地调整模型,让开发人员更好地控制生成式 AI 中的责任挑战。

我们开发了新的最先进的可解释性方法来确定训练数据对模型行为的作用。通过将训练数据归因方法与敏捷分类器相结合,我们发现可以识别错误标记的训练示例。这使得减少训练数据中的噪音成为可能,从而显著提高模型准确性。

我们发起了多项努力来提高在线内容的安全性和透明度。例如,我们推出了SynthID,这是一款用于为 AI 生成的图像添加水印和识别的工具。SynthID 人眼无法察觉,不会影响图像质量,并且即使在添加滤镜、更改颜色和使用各种有损压缩方案保存等修改后,水印仍然可检测到。

我们还推出了“关于此图片”功能,帮助人们评估图片的可信度,显示图片的历史、在其他页面上的使用方式以及有关图片的可用元数据等信息。我们还探索了在其他领域开发的安全方法,从低风险容忍度的既定情况中吸取教训。

SynthID 为 AI 生成的图像生成不可察觉的数字水印。

隐私仍然是我们对负责任的人工智能承诺的一个重要方面。我们继续改进我们最先进的隐私保护学习算法DP-FTRL,开发了 DP-交替最小化算法 ( DP-AM ) 以实现具有严格隐私保护的个性化推荐,并定义了一种新的通用范式来降低许多聚合和学习任务的隐私成本。我们还提出了一种用于审计差异隐私机器学习系统的方案。

在应用方面,我们证明了DP-SGD在大型模型微调领域提供了实用的解决方案,并表明 DP 扩散模型生成的图像可用于一系列下游任务。我们提出了一种用于大型嵌入模型的 DP 训练的新算法,该算法可在不影响准确性的情况下在 TPU 上进行高效训练。

我们还与众多学术和工业研究人员合作,组织了第一届机器反学习挑战赛,以解决训练图像被遗忘的情况,从而保护个人的隐私或权利。我们分享了一种可提取记忆的机制,以及让用户更好地控制敏感数据的 参与系统。

我们继续在Euphonia 项目 中将世界上最大的非典型语音记录语料库扩展到超过 100 万条话语,这使我们能够训练通用语音模型,使其在真实基准上 对非典型语音的识别率提高 37% 。

我们还为患有阅读障碍(如诵读困难)的学生 建立了有声读物推荐系统。

对抗性测试

我们在对抗性测试方面的工作吸收了历史上处于边缘地位的社区的声音。我们与公平人工智能研究圆桌会议(EARR) 等组织合作,以确保我们代表使用我们模型的不同社区,并与外部用户互动,以识别生成模型输出中的潜在危害。

我们成立了专门的 Google AI Red Team,专注于测试 AI 模型和产品的安全、隐私和滥用风险。我们表明,“投毒”或对抗性示例等攻击可以应用于生产模型,并暴露出图像和文本生成模型中的记忆等其他风险。我们还表明,防御此类攻击可能具有挑战性,因为仅仅应用防御措施可能会导致其他安全和隐私泄露。我们还引入了针对极端风险的模型评估,例如攻击性网络能力或强大的操纵技能。

通过工具和教育实现人工智能民主化

随着我们在机器学习和人工智能领域取得的最新进展,我们还希望确保人们能够理解人工智能并将其应用于具体问题。我们发布了MakerSuite(现为Google AI Studio),这是一款基于网络的工具,可帮助人工智能开发人员快速迭代和构建轻量级人工智能应用。为了帮助人工智能工程师更好地理解和调试人工智能,我们发布了LIT 1.0,这是一款用于机器学习模型的最先进的开源调试器。

Colab是我们的工具,可帮助开发人员和学生直接在 Web 浏览器中访问强大的计算资源,目前用户数量已超过 1000 万。我们刚刚向所有用户免费添加了AI 代码辅助功能,使 Colab 在数据和 ML 工作流程中成为一种更有帮助、更集成的体验。

最常用的功能之一是“解释错误”——每当用户在 Colab 中遇到执行错误时,代码辅助模型都会提供解释以及可能的修复方法。

为了确保人工智能在使用时产生准确的知识,我们最近还推出了FunSearch,这是一种使用进化方法和大型语言模型生成可验证的数学科学真实知识的新方法。

对于 AI 工程师和产品设计师,我们正在用生成式 AI 最佳实践更新《People + AI 指南》,并且我们将继续设计AI Explorables,其中包括模型有时如何以及为何会自信地做出错误的预测。

社区参与

我们通过发表大量论文以及参加和组织会议来继续推动人工智能和计算机科学领域的发展。今年到目前为止,我们已经发表了 500 多篇论文,并在 ICML(参见Google Research和Google DeepMind帖子)、ICLR(Google Research、Google DeepMind)、NeurIPS(Google Research、Google DeepMind)、ICCV、CVPR、ACL、CHI和Interspeech等会议上表现出色。我们还致力于支持世界各地的研究人员,参加Deep Learning Indaba、Khipu等活动,支持拉丁美洲的博士奖学金等。我们还与来自 33 个学术实验室的合作伙伴合作,汇集了来自 22 种不同机器人类型的数据,并创建了Open X-Embodiment 数据集和 RT-X 模型,以更好地推进负责任的人工智能开发。

Google 率先在MLCommons标准组织下 发起了一项全行业的努力,以制定AI 安全基准,其中包括 OpenAI、Anthropic、Microsoft、Meta、Hugging Face 等生成式 AI 领域的几家主要参与者。我们还与业内其他公司共同创立了前沿模型论坛( FMF),该论坛致力于确保前沿 AI 模型的开发安全且负责任。我们与 FMF 合作伙伴和其他慈善组织共同启动了一项 1000 万美元的AI 安全基金,以推动研究,持续开发工具,让社会能够有效地测试和评估最强大的 AI 模型。

我们与Google.org 密切合作,与联合国共同建立了联合国可持续发展目标数据共享中心,这是一个可追踪 17 个可持续发展目标指标的工具,我们还支持非政府组织、学术机构和社会企业利用人工智能加速实现可持续发展目标的项目。

本文重点介绍的项目只是我们去年所做的研究工作的一小部分。如需了解更多信息,请访问Google Research和Google DeepMind博客以及我们的出版物列表。

未来愿景

随着多模态模型的功能越来越强大,它们将帮助人们在从科学到教育乃至全新知识领域取得令人难以置信的进步。

进步仍在继续,随着时间的推移,我们的产品和研究也在不断进步,人们将发现人工智能更多有趣的创造性用途。

这篇年度回顾的结尾与我们开始的地方一样,正如我们在《我们为何关注人工智能(以及关注的目的)》中所说:

我们相信,只要大胆而负责任地去追求,人工智能可以成为改变世界各地人们生活的一项基础技术——这是让我们兴奋的事情!

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论