Pic2Word:将图片映射到单词以进行零样本组合图像检索
图像检索在搜索引擎中起着至关重要的作用。通常,用户依靠图像或文本作为查询来检索所需的目标图像。但是,基于文本的检索有其局限性,因为使用文字准确描述目标图像可能具有挑战性。例如,在搜索时尚物品时,用户可能想要一件特定属性(例如徽标的颜色或徽标...
图像检索在搜索引擎中起着至关重要的作用。通常,用户依靠图像或文本作为查询来检索所需的目标图像。但是,基于文本的检索有其局限性,因为使用文字准确描述目标图像可能具有挑战性。例如,在搜索时尚物品时,用户可能想要一件特定属性(例如徽标的颜色或徽标...
视觉问答(VQA) 是一种机器学习任务,需要模型来回答有关一张或一组图像的问题。传统的 VQA 方法需要大量标记的训练数据,其中包括数千个与图像相关的人工注释的问答对。近年来,大规模预训练的进步推动了 VQA 方法的发展,这些方法在使用少于...
计算机架构研究在开发模拟器和工具以评估和塑造计算机系统设计方面有着悠久的历史。例如,SimpleScalar模拟器于 20 世纪 90 年代末推出,让研究人员能够探索各种微架构思想。计算机架构模拟器和工具(如gem5、DRAMSys等)在推...
人类智能的一个关键特征是,人类可以仅使用几个例子进行推理,从而学会执行新任务。语言模型的扩展解锁了机器学习中的一系列新应用和范例,包括通过上下文学习执行具有挑战性的推理任务的能力。然而,语言模型仍然对提示的给出方式很敏感,这表明它们不是以稳...
从周期性数据(重复的信号,如心跳或地球表面的每日温度变化)中学习对于许多实际应用至关重要,从监测天气系统到检测生命体征。例如,在环境遥感领域,通常需要定期学习才能预测环境变化,如降水模式或地表温度。在健康领域,从视频测量中学习已被证明可以提...
人工智能相关产品和技术是在社会背景下构建和部署的:即社会、文化、历史、政治和经济环境的动态和复杂集合。由于社会背景本质上是动态、复杂、非线性、有争议、主观和高度定性的,因此很难将其转化为主导标准机器学习 (ML) 方法和负责任的人工智能产品...
深度学习最近在一系列问题和应用中取得了巨大进展,但模型在部署到未知域或分布中时往往会出乎意料地失败。无源域自适应(SFDA) 是一个研究领域,旨在设计方法,将预训练模型(在“源域”上训练)适配到新的“目标域”,仅使用后者的未标记数据。设计深...
医学本质上是一门多模态学科。在提供护理时,临床医生通常会解释来自各种模态的数据,包括医学图像、临床笔记、实验室测试、电子健康记录、基因组学等。在过去十年左右的时间里,人工智能系统已经在特定模态内的特定任务上取得了专家级的表现——一些人工智能...
自适应计算是指机器学习系统根据环境变化调整其行为的能力。虽然传统神经网络具有固定的功能和计算能力,即它们花费相同数量的 FLOP 来处理不同的输入,但具有自适应和动态计算的模型会根据输入的复杂性调整用于处理每个输入的计算预算。神经网络中的自...
过去几年来,自动处理复杂商业文档并将其转换为结构化对象的系统取得了快速进展。可以自动从收据、保险报价和财务报表等文档中提取数据的系统有可能通过避免容易出错的手动工作来大幅提高业务工作流程的效率。基于Transformer架构的最新模型在准确...