利用概念激活向量实现创造性表达

1726673159591.jpg

计算机视觉和自然语言处理方面的进步不断开辟新途径,探索公共和可搜索网站上的数十亿张图像。如今的视觉搜索工具可以同时使用相机、语音、文本、图像或多种模式进行搜索。然而,将视觉色调或情绪等主观概念输入当前系统仍然很困难。为此,我们一直在与艺术家、摄影师和图像研究人员合作,探索机器学习 (ML) 如何让人们使用富有表现力的查询作为视觉探索数据集的一种方式。

今天,我们推出了情绪板搜索 (Mood Board Search),这是一款全新的机器学习研究工具,它使用情绪板作为图像集的查询。这使人们能够根据自己的条件定义和唤起视觉概念。情绪板搜索可用于主观查询,例如“和平”,或用于可能不够具体而无法在标准搜索中产生有用结果的单词和单个图像,例如“被忽略场景中的抽象细节”或“充满活力的调色板,让人感觉部分是记忆,部分是梦境”。我们根据我们的AI 原则开发了这款研究工具,并将继续开发它。

使用情绪板进行搜索

借助情绪板搜索,我们的目标是设计一个灵活且易于使用的界面,让没有机器学习专业知识的人也可以训练计算机识别他们看到的视觉概念。该工具界面的灵感来自情绪板,创意领域的人们通常使用情绪板通过一系列视觉材料来传达某个想法的“感觉”。

通过情绪板搜索,用户可以训练计算机识别图像集合中的视觉概念。

首先,只需拖放少量代表您想要传达的想法的图像即可。当图像具有相同的视觉质量时,情绪板搜索会返回最佳结果,因此结果更有可能与在颜色、图案、纹理或构图方面具有视觉相似性的情绪板相关。

还可以通过增加或减少图像的权重,或添加与概念相反的图像来表明哪些图像对视觉概念更重要。然后,用户可以查看和检查搜索结果,以了解图像的哪一部分最符合视觉概念。焦点模式通过显示图像部分周围的边界框来实现这一点,而AI 裁剪则直接切入,使人们更容易注意到新的构图。

支持的交互(例如AI 裁剪)允许用户查看图像中哪部分最符合他们的视觉概念。

由概念激活向量 (CAV) 提供支持

情绪板搜索利用预先训练的计算机视觉模型,例如GoogLeNet和MobileNet ,以及称为概念激活向量(CAV)的机器学习方法。

CAV 是机器使用神经网络嵌入空间(可视为机器理解的内容)中的数字或方向来表示图像(我们理解的内容)的一种方式。CAV 可用作CAV 测试(TCAV) 技术的一部分,以量化用户定义的概念对分类结果的重要程度;例如,“斑马”的预测对条纹的存在的敏感程度。这是我们在 2018 年开源的一种研究方法,此后,这项工作已广泛应用于医疗应用和科学,以构建能够更好地解释机器所见内容的 ML 应用程序。您可以在此 Google AI 博客文章中了解有关嵌入向量的更多信息,以及我们在 ICLR 上 Been Kim 的主题演讲中介绍我们使用 TCAV 的方法。

在情绪板搜索中,我们使用 CAV 来查找模型对用户创建的情绪板的敏感度。换句话说,每个情绪板都会创建一个 CAV(嵌入空间中的方向),然后该工具会搜索图像数据集,显示与 CAV 最接近的图像。然而,该工具更进一步,通过以 15 种不同的方式对数据集中的每个图像进行分割,以发现尽可能多的相关构图。这就是 Focus 模式和 AI 裁剪等功能背后的方法。

三位艺术家创造了视觉概念来分享他们的观察方式,这里展示的是设计发明工作室Nord Projects推出的一款实验性应用程序。

由于嵌入向量可以在模型之间学习和重复使用,因此 Mood Board Search 等工具可以帮助我们向他人表达自己的观点。早期与创意社区的合作表明,能够创造并与他人分享主观体验具有重要价值,从而产生能够“摆脱视觉相似的回音室”或“通过他人的眼睛看世界”的感觉。即使模型和人类对概念的理解不一致,也常常会为合作者带来意想不到的、鼓舞人心的联系。总之,这些发现指向了设计包含个人和集体主观性的协作 ML 系统的新方法。

结论和未来工作

今天,我们将 Mood Board Search 的代码开源,包括我们合作者制作的三个视觉概念,以及一个 Mood Board Search Python 库,以便人们将 CAV 的强大功能直接运用到自己的网站和应用中。虽然这些工具还处于早期阶段,但我们相信,这种功能可以有广泛的应用范围,从探索无组织的图像集合到外部化观察协作和可共享工件的方式。设计发明工作室Nord Projects已经使用 Mood Board Search 制作了一款实验性应用,它研究了实时在相机中运行 CAV 的机会。在未来的工作中,我们计划使用 Mood Board Search 来了解新形式的人机协作,并扩展 ML 模型和输入(如文本和音频),以允许更深入的主观发现,而不受媒介的限制。

如果您有兴趣为您的团队或组织演示这项工作,请发送电子邮件至cav-experiments-support@google.com。

致谢

本博客介绍的研究由(按字母顺序排列)以下人员完成:Kira Awadalla、Been Kim、Eva Kozanecka、Alison Lentz、Alice Moloney、Emily Reif 和 Oliver Siy,与设计发明工作室Nord Projects合作。我们感谢我们的合著者 Eva Kozanecka、我们的艺术家合作伙伴 Alexander Etchells、Tom Hatton、Rachel Maggart、大英图书馆成像团队参与测试预览,以及 Blaise Agüera y Arcas、Jess Holbrook、Fernanda Viegas 和 Martin Wattenberg 对本研究项目的支持。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论