数据碎碎念

数据碎碎念1

正确的数据统计开始于细心。

where event_day = ‘20160311’ 和 where event_day = ‘201610311’ 看出这两者的区别了么?是的,仅仅多了一个 1。但是这会造成两个表连接时,一个表中的数据全部为空,进而造成实际统计的结果与逻辑上构想的结果产生出入。这种微小的错误,发生了就很难查出。正确的数据统计开始于细心。

数据碎碎念2

『没有不合适的天气,只有不合适的衣服』,与之对应,没有真正的 “噪音数据”,只有不适宜的方法.

了解数据质量很大程度上依赖于已经发展成直觉的过去的经验。但是这种直觉存在一些问题,第一,直觉善于发现明显的异常值,但是对于隐藏的问题难以发现;第二,直觉本身可能是错的。

检验数据的质量的一般方法

  • 数据的完整性:数据是不是全了;
  • 数据的一致性:数据自身可以解释的通么?;
  • 数据的准确性;数据的可解释性:数据之间的逻辑关系解释的通么。

下一次,再拿到一份数据的时候,想想以往的经验,想想数据本身和数据之间的关系。