做好准备:数据清理即将到来

  毋庸置疑,数据是任何数据分析的基石。

  至于数据,有数百万个地方可能存在错误。可能是排列错误、多余空格、数据格式问题、重复项 – 等等。

  不知不觉中,数据分析就变成了你的噩梦。想想看:数据专家花费 80% 的时间来组织和清理数据,而另外 20% 的时间则用于数据分析本身。

  这是一个相当反效果的比例,不是吗?

  (还有另外一个笑话:数据科学家花费 80% 的时间来组织和清理数据,而 20% 的时间则用于抱怨。 我们理解你的感受。 数据清理就像是战胜风一样。)

  如您所见,正确的 数据分析 需要各种数据清理技术,以便您的数据可以进行分析。

  无论如何,什么是数据清理?

  本质上,数据清理或净化是指从数据库中找出并修复或删除不正确记录的过程。

  它还假定识别数据中未完成或不相关的部分,然后替换、更改或删除粗数据。

  虽然听起来很吓人,但实际上并没有那么痛苦。掌握一些技巧后,一切都会顺利进行。

  清理的 5 个步骤

  1. 稍加计划永远不会有坏处。

  所谓一点,就是周密而深刻的计划。你不 觉得 这很容易吗?

  不要一开始就专注于最终目标,而要制定一个实际计划。它应该包括必要的精度、格式、数据本身的相关性。

  如果仍有争议,请先进行试点研究。一旦您概述了研究的各个阶段,您就可以预测将获得的结果。(还记得那个男人敲头的表情包吗?

  2. 真正清理你的数据。

  你可能会惊讶地发现,数据清理并不是简单的清理。它更多的是保持连贯性和系统化。以下是如何成为数据整理大师的方法:

  为原始数据、当前清理数据、清理后数据和就绪数据创建单独的 工作表。

  摆脱隐形人。多余的空格在你的数据集中徘徊,看起来傲慢自大。丢弃它们

  删除重复项

  标准化文本数据的大小写。尽一切努力 修复结构错误。

  3. 寻找一次性异常值。

  如果您发现异常值与分析数据不符,请务必将其删除。但是,并非所有不需要的异常值都是无关紧要的,有时它们有助于证明您正在研究的理论。

  4.获取缺失的数据。

  大多数算法不接受缺失值。

  因此, 缺失的数据 会影响你的数据分析的效率。

  您有两个选择:要么跳过具有缺失数据的观察结果,要么根据其他观察结果输入缺失值。这两个选项都不理想,但值得一试。

  5. 进行基本验证。

  完成数据清理后  ,请务必检查以下问题:所有数据是否相关?数据是否符合其领域所需的规则?

  它是否证明或否定了你的假设,或者揭示了任何见解?

  你剪下来并保留摘要

  数据稀疏和格式不一致是数据分析中最大的挑战。

  拥有干净的数据最终将提高整体 生产力 ,并为您的决策提供更高质量的信息。

  清理您的数据,您将不再需要翻阅无数过时的文档。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论