PaLI:扩展语言图像学习,覆盖 100 多种语言
高级语言模型(例如GPT、GLaM、PaLM和T5)已经展示了多样化的功能,并通过扩大其参数数量在各个任务和语言中取得了令人瞩目的成果。视觉语言 (VL) 模型可以从类似的扩展中受益,以解决许多任务,例如图像字幕、视觉问答(VQA)、对象识...
高级语言模型(例如GPT、GLaM、PaLM和T5)已经展示了多样化的功能,并通过扩大其参数数量在各个任务和语言中取得了令人瞩目的成果。视觉语言 (VL) 模型可以从类似的扩展中受益,以解决许多任务,例如图像字幕、视觉问答(VQA)、对象识...
数字技术的出现改变了航空、在线零售和互联网广告等商业领域的决策方式。如今,需要在高度不确定和快速变化的环境中反复做出实时决策。此外,组织的资源通常有限,需要在决策之间进行有效分配。这类问题被称为资源受限的在线分配问题,应用比比皆是。一些示例...
视图合成是计算机视觉和计算机图形学交叉领域的一个 长期存在的问题,它的任务是从该场景的多张图片中创建新的场景视图。自神经辐射场 (NeRF) 引入以来,这一问题受到了越来越多的关注 [ 1、2、3 ] 。这个问题很有挑战性,因为要准确地合成...
当今计算机科学和机器学习 (ML) 的许多激动人心的应用都处理跨单个大型坐标系的多维数据集,例如,根据空间网格上的大气测量值进行天气建模,或根据 2d 或 3d 扫描中的多通道图像强度值进行医学成像预测。在这些设置中,即使是单个数据集也可能...
帧插值是从给定的一组图像中合成中间图像的过程。该技术通常用于时间上采样,以提高视频的刷新率或创建慢动作效果。如今,有了数码相机和智能手机,我们经常在几秒钟内拍摄多张照片以捕捉最佳照片。在这些“几乎重复”的照片之间进行插值可以产生引人入胜的视...
生成逼真的音频需要对以不同尺度表示的信息进行建模。例如,就像音乐从单个音符构建复杂的乐句一样,语音将时间局部结构(如音素或音节)组合成单词和句子。在所有这些尺度上创建结构良好且连贯的音频序列是一项挑战,通过将音频与可以指导生成过程的转录相结...
图像字幕制作是一项机器学习任务,用于自动为给定图像生成流畅的自然语言描述。这项任务对于提高视障用户的可访问性非常重要,也是涵盖视觉和语言建模的多模态研究的核心任务。然而,用于图像字幕的数据集主要以英语提供。除此之外,只有少数数据集涵盖了有限...
构建能够很好地理解和生成自然语言的模型是机器学习 (ML) 研究的宏伟目标之一,并且对构建用于日常应用的智能系统有直接影响。提高语言模型的质量是研究人员朝着这一目标前进的关键目标。构建和训练语言模型的最常见范例是使用自回归仅解码器架构(例如...
确定图像之间的相似性是计算机视觉领域的一个未解决的问题,对于评估机器生成图像的真实度至关重要。虽然有许多直接的方法可以估计图像相似性(例如,测量像素差异的低级指标,如 FSIM和SSIM ),但在许多情况下,测量到的相似性差异与人感知到的差...
了解图像的美学和技术质量对于提供更好的用户视觉体验非常重要。图像质量评估(IQA) 使用模型在图像和用户对其质量的主观感知之间架起桥梁。在深度学习时代,许多 IQA 方法(例如NIMA )通过利用卷积神经网络(CNN)的强大功能取得了成功。...