请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 224|回复: 0

概念字幕:图像字幕的新数据集和挑战

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-10 16:41:52 | 显示全部楼层 |阅读模式
网络上充斥着数十亿张图片,为世界提供了各种各样的娱乐和信息。然而,这些视觉信息中的大部分对于视障人士或因网速太慢而无法加载图片的人来说是无法访问的。网站作者使用Alt-text HTML手动添加的图片说明是让这些内容更易于访问的一种方法,这样就可以使用文本转语音系统呈现图片的自然语言描述。但是,现有的人工策划的 Alt-text HTML 字段仅适用于极小一部分网络图片。虽然自动图像说明可以帮助解决这个问题,但准确的图像说明是一项具有挑战性的任务,需要推进计算机视觉和自然语言处理的最新技术。
图像字幕功能可将图像字幕转换为文本,从而帮助数百万视力障碍人士。图片由Francis Vallance (Heritage Warrior)提供,根据CC BY 2.0许可使用。
今天,我们推出了概念字幕,这是一个新的数据集,包含约 330 万个图像/字幕对,这些对是通过从数十亿个网页中自动提取和过滤图像字幕注释而创建的。概念字幕是在ACL 2018 的一篇论文中提出的,与人工整理的MS-COCO 数据集相比,带字幕的图像数量增加了一个数量级。经人工评分员测量,机器整理的概念字幕的准确率约为 90%。此外,由于概念字幕中的图像是从网络上提取的,因此它比以前的数据集代表了更广泛的图像字幕样式,从而可以更好地训练图像字幕模型。为了跟踪图像字幕的进展,我们还宣布了概念字幕挑战赛,供机器学习社区在概念字幕测试平台上训练和评估他们自己的图像字幕模型。
概念字幕数据集中的图像和字幕插图。
生成数据集
要生成概念字幕数据集,我们首先从网络上获取具有 Alt 文本 HTML 属性的图像。我们会自动筛选这些图像的某些属性,以确保图像质量,同时避免成人主题等不良内容。然后,我们应用基于文本的过滤,删除带有非描述性文本的字幕(例如标签、错误的语法或与图像无关的添加语言);我们还会丢弃情感极性较高或成人内容的文本(有关过滤标准的更多详细信息,请参阅我们的论文)。我们使用现有的图像分类模型来确保对于任何给定的图像,其 Alt 文本(允许词语变化)与图像分类器为该图像输出的标签之间存在重叠。
从特定名称到一般概念
虽然通过上述过滤器的候选者往往是好的 Alt 文本图像描述,但绝大多数都使用专有名称(对于人物、场地、位置、组织等)。这是有问题的,因为图像字幕模型很难从输入图像像素中学习如此细粒度的专有名词推断,同时还要生成自然语言描述1。
为了解决上述问题,我们编写了软件,可以自动用代表相同一般概念的单词替换专有名词,即用它们的概念替换专有名词。在某些情况下,会删除专有名词以简化文本。例如,我们替换人名(例如,“前世界小姐 Priyanka Chopra在红毯上” 变成 “红毯上的演员”),删除地名(“洛杉矶音乐会上的人群” 变成 “ 音乐会上的人群 ”),删除命名的修饰语(例如,“意大利菜 ” 变成 “ 菜 ”)并在需要时更正新形成的名词短语(例如,“艺术家和艺术家” 变成 “ 艺术家 ”)
最后,我们对所有已解析的实体(例如“艺术家”、“狗”、“邻居”等)进行聚类,并仅保留提及次数超过 100 次的候选类型,这个数量足以支持这些实体的表示学习。这样保留了大约 16K 个实体概念,例如:“人”、“演员”、“艺术家”、“玩家”和“插图”。我们保留的不太常见的概念包括“法式长棍面包”、“缰绳”、“截止日期”、“部委”和“漏斗”。
最后,需要大约 10 亿个(英文)网页,包含超过 50 亿张候选图像,才能获得一个干净且可学习的超过 300 万个样本的图像标题数据集(拒绝率为 99.94%)。我们的控制参数偏向高精度,尽管可以调整这些参数以生成精度较低但数量级更高的示例。
数据集影响
为了测试我们数据集的实用性,我们使用 MS-COCO 数据集(使用 120K 张图像,每张图像有 5 个人工注释字幕)和新的Conceptual Captions 数据集(使用超过3.3M张图像,每张图像有 1 个字幕),分别训练了基于 RNN 和 Transformer 的图像字幕模型(这些模型在 Tensor2Tensor (T2T) 中实现)。有关模型架构的更多详细信息,请参阅我们的论文。这些模型使用Flickr30K数据 集中的图像进行测试(这些图像不属于 MS-COCO 和 Conceptual Captions 的领域),并使用每个测试用例的 3 名人工评分者对生成的字幕进行评估。结果报告在下表中。
从这些结果中,我们得出结论,无论架构如何(即 RNN 或 Transformer),在概念字幕上训练的模型的泛化效果都优于竞争方法。此外,我们发现,在任何一个数据集上训练 Transformer 模型都比 RNN 表现更好。从这些发现得出的结论是,概念字幕可以训练在各种图像上表现更好的图像字幕模型。
参与其中
我们希望这个数据集将帮助机器学习社区推进图像字幕模型的最新发展。重要的是,由于没有人工注释者参与其创建,因此该数据集具有高度可扩展性,可能允许扩展数据集以自动为更多种类的图像创建类似 Alt-text-HTML 的描述。我们鼓励所有感兴趣的人参加概念字幕挑战赛,我们期待看到社区能做些什么!有关更多详细信息和最新结果,请访问挑战赛网站。
致谢
感谢 Nan Ding、Sebastian Goodman 和 Bo Pang 使用概念字幕数据集训练模型,以及感谢 Amol Wankhede 推动该数据集的公开发布工作。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2025-1-22 04:57 , Processed in 0.093230 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表