自然问题：问答研究的新语料库和挑战

lixia01 · 发表于 2024-12-3 21:47:33

开放域问答(QA) 是自然语言理解(NLU) 中的一项基准任务，旨在模拟人们寻找信息的方式，通过阅读和理解整个文档来找到问题的答案。给定一个用自然语言表达的问题（“为什么天空是蓝色的？”），QA 系统应该能够阅读网页（例如此 Wikipedia 页面）并返回正确答案，即使答案有些复杂且冗长。但是，目前没有大量公开可用的自然发生问题（即寻求信息的人提出的问题）和答案来源可用于训练和评估 QA 模型。这是因为组装用于问答的高质量数据集需要大量真实问题来源和大量人力来寻找正确答案。
为了帮助推动 QA 研究进展，我们很高兴地宣布推出Natural Questions (NQ)，这是一个用于训练和评估开放域问答系统的新型大型语料库，也是第一个复制人们寻找问题答案的端到端过程的语料库。1 NQ 规模庞大，包含 300,000 个自然发生的问题以及来自维基百科页面的人工注释答案，可用于训练 QA 系统。我们还添加了 16,000 个示例，其中 5 个不同的注释者提供了（针对相同问题的）答案，这对于评估学习到的 QA 系统的性能非常有用。由于回答 NQ 中的问题需要比回答琐碎问题（计算机已经很容易解决）所需的更深层次的理解，因此我们还宣布了一项基于这些数据的挑战，以帮助提高计算机的自然语言理解能力。Data
NQ
是第一个使用自然发生的查询的数据集，它专注于通过阅读整个页面来寻找答案，而不是从短段落中提取答案。为了创建 NQ，我们从用户向 Google 搜索引擎提出的真实、匿名、聚合查询开始。然后，我们要求注释者通过阅读整个维基百科页面来寻找答案，就像他们自己提出问题一样。注释者既会寻找涵盖推断答案所需所有信息的长答案，也会寻找用一个或多个实体名称简洁地回答问题的短答案。NQ 语料库中的注释质量经测量准确率为 90%。
我们的论文“自然问题：问答研究的基准”已被《计算语言学协会会刊》接受发表，其中对数据收集过程进行了全面描述。要查看数据集中的更多示例，请访问NQ 网站。NQ
挑战赛
旨在使 QA 系统能够阅读和理解整篇维基百科文章，其中可能包含也可能不包含问题的答案。系统首先需要确定问题是否定义得足够好以便回答 — 许多问题做出了错误的假设，或者太模糊而无法简洁地回答。然后，它们需要确定维基百科页面中是否有任何部分包含推断答案所需的所有信息。我们认为，长答案识别任务 — 找到推断答案所需的所有信息 — 需要比在知道长答案后找到简短答案更深层次的语言理解。

		自动登录	找回密码
密码			立即注册