请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 191|回复: 0

构建 Google 数据集搜索并培育开放数据生态系统

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-10 16:36:41 | 显示全部楼层 |阅读模式
本月初,我们推出了Google 数据集搜索,该工具旨在帮助研究人员更轻松地发现有助于其工作的数据集。我们俗称其为“数据版 Google 学术搜索”,Google 数据集搜索是一个跨元数据搜索引擎,可搜索网络上数千个存储库中的数百万个数据集。在这篇文章中,我们将详细介绍数据集搜索的构建方式,概述我们认为有助于开发开放数据生态系统的因素,并回答自数据集搜索推出以来我们经常收到的问题:“为什么我的数据集没有显示在 Google 数据集搜索中? ”
概述
从很高的层面上讲,Google 数据搜索依赖于大大小小的数据集提供商,他们使用开放的schema.org/Dataset标准在其网站上添加结构化元数据。元数据指定每个数据集的显著属性:其名称和描述、空间和时间覆盖范围、出处信息等。数据集搜索使用这些元数据,将其与 Google 提供的其他资源链接起来(更多信息见下文!),并为这个丰富的元数据语料库建立索引。一旦我们建立了索引,我们就可以开始回答用户查询——并找出最符合查询的结果。
使用数据提供商的结构化元数据
当 Google 的搜索引擎处理带有 schema.org/Dataset 标记的网页时,它会理解那里有数据集元数据,并处理结构化元数据以创建描述页面上每个带注释数据集的“记录”。使用 schema.org 允许开发人员将这些结构化信息嵌入 HTML,而不会影响页面的外观,同时使信息的语义对所有搜索引擎可见。
但是,无论 schema.org 定义或指南多么精确,某些元数据不可避免地会不完整、错误或完全缺失。此外,某些字段之间的区别可能很模糊:数据集存储库是数据集的发布者还是提供者?我们如何区分描述数据集创建的科学论文的引文与描述其使用的论文的引文?事实上,这些问题中的许多问题经常引发积极的学术讨论。
尽管存在这些差异,但数据集搜索必须在前端提供统一且可预测的用户体验。因此,在某些情况下,我们会用更通用的字段名称(例如“ provided by ”)来替代,以显示来自多个其他字段(例如“ publisher ”、“ creator ”等)的值。在其他情况下,我们根本无法使用某些字段:如果数据集提供者以多种不同的方式误解了某个特定字段,我们会暂时绕过该字段,并与社区合作澄清准则。在每次决策中,我们都会提出一个具体问题,以帮助我们应对困难的情况“什么对数据发现最有帮助?”这种对我们正在解决的任务的关注使一些问题变得比最初看起来更容易。
连接数据集的副本
一个数据集(尤其是流行的数据集)存在于多个存储库中是很常见的。我们使用各种信号来确定两个数据集何时是彼此的副本。例如,schema.org 有一种通过schema.org/sameAs明确指定连接的方法,这是将不同的副本链接在一起并指向数据集的规范源的最佳方法。其他信号包括两个数据集描述指向同一个规范页面、具有相同的数字对象标识符(DOI)、共享下载数据集的链接或在其他元数据字段中有很大重叠。这些信号单独来看都不是完美的,因此我们将它们结合起来,以获得最有力的迹象,表明两个数据集何时相同。
与 Google 知识图谱协调
Google 的知识图谱是一个功能强大的平台,它描述和链接许多实体的信息,包括出现在数据集元数据中的实体:提供数据集的组织、数据空间覆盖的位置、资助机构等。因此,我们尝试将元数据字段中提到的信息与知识图谱中的项目进行协调。我们可以非常精确地进行这种协调,主要有两个原因。首先,我们知道知识图谱中的项目类型以及我们期望在元数据字段中出现的实体类型。因此,我们可以限制知识图谱中与特定元数据字段的值匹配的实体类型。例如,数据集的提供者应该与知识图谱中的组织实体匹配,而不是与位置匹配。其次,网页本身的上下文有助于减少选择的数量,这对于区分具有相同首字母缩略词的组织特别有用。例如,首字母缩略词 CAMRA 可以代表“Chilbolton 高级气象雷达”或“真麦啤酒运动”。如果我们使用网页中的术语,那么当我们在页面上看到诸如“云”、“蒸汽”和“水
”之类的术语时,我们就可以更容易地确定 CAMRA 实际上是 Chilbolton Radar。 这种类型的协调为改善用户的搜索体验开辟了许多可能性。例如,数据集搜索可以通过显示与页面其余部分相同语言的元数据协调值来本地化结果。此外,它可以依赖同义词、更正拼写错误、扩展首字母缩略词或使用知识图谱中的其他关系进行查询扩展。
链接到其他 Google 资源
Google 有许多其他数据资源可用于扩充数据集元数据,例如Google Scholar。了解出版物中引用和引用了哪些数据集至少有两个目的:
它提供了有关数据集的重要性和突出性的宝贵信号。
它为数据集作者提供了一个方便的地方来查看其数据的引用并获得荣誉。
事实上,我们希望突出使用数据的出版物将带来更健康的数据引用生态系统。目前,我们与 Google 学术的链接非常近似,因为我们缺乏关于人们如何引用数据的良好模型。我们试图超越 DOI 来提供更好的覆盖范围,但引用数据集的文章数量最终是近似的。我们希望在这方面取得更多进展,以获得更高的精度。
搜索和结果排名
当用户发出查询时,我们会搜索数据集语料库,方式与 Google 搜索在网页上的工作方式类似。就像任何搜索一样,我们需要确定文档是否与查询相关,然后对相关文档进行排名。由于没有关于用户如何搜索数据集的大规模研究,因此作为初步近似,我们依赖 Google Web 排名。但是,对数据集进行排名不同于对网页进行排名,我们添加了一些额外的信号,这些信号考虑了元数据质量、引用等。随着数据集搜索被用户越来越多地使用,并且我们越来越了解用户如何搜索数据集,我们希望排名会显著提高。
更好的开放数据生态系统
我们构建数据集搜索是为了尝试创建一种能够对数据的可发现性产生积极影响的工具。决定依赖开放标准(schema.org、W3C DCAT、JSON-LD等)进行标记是有意为之,因为数据集搜索的好坏取决于它所支持的开放数据生态系统。因此,Google 数据集搜索旨在通过鼓励以下方式支持强大的开放数据生态系统:
广泛采用开放元数据格式来描述已发布的数据。
进一步开发开放元数据格式,以更详细地描述更多类型的数据。
引用数据的文化就像我们引用研究出版物一样,给予那些创建和发布数据的人应得的荣誉。
开发利用这些元数据的工具来实现更多的发现或更好的数据利用。
随着开放元数据标准的采用率不断提高,以及数据集搜索(以及其他工具)的不断发展,应该会促进更健康的开放数据生态系统,在这个生态系统中,数据是研究的头等公民。那么,您的
数据集在哪里?
现在可能已经很清楚,数据集搜索的好坏取决于数据集网页上存在的元数据。对于特定数据集未出现在我们的结果中的原因,最常见的答案是该数据集的网页没有任何标记。只需将该页面放入结构化数据测试工具中,您就会看到标记是否存在。如果您在那里没有看到任何标记,并且您拥有该页面,您可以添加它;如果您不拥有该页面,您可以要求页面所有者添加它,这将使他们的页面更​​容易被所有人发现。
我们希望社区发现数据集搜索很有用,用户可以偶然发现并节省时间,科学家和记者可以花更少的时间搜索数据,花更多的时间使用它。
致谢
我们要感谢 Xiaomeng Ban、Dan Brickley、Lee Butler、Thomas Chen、Corinna Cortes、Kevin Espinoza、Archana Jain、Mike Jones、Kishore Papineni、Chris Sater、Gokhan Turhan、Shubin Zhao 和 Andi Vajda 为该项目所做的工作,以及感谢所有合作伙伴、合作者和早期采用者的帮助。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2025-1-22 05:53 , Processed in 0.074144 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表