正确的数据统计开始于细心。
where event_day = ‘20160311’ 和 where event_day = ‘201610311’ 看出这两者的区别了么?是的,仅仅多了一个 1。但是这会造成两个表连接时,一个表中的数据全部为空,进而造成实际统计的结果与逻辑上构想的结果产生出入。这种微小的错误,发生了就很难查出。正确的数据统计开始于细心。
『没有不合适的天气,只有不合适的衣服』,与之对应,没有真正的 “噪音数据”,只有不适宜的方法.
了解数据质量很大程度上依赖于已经发展成直觉的过去的经验。但是这种直觉存在一些问题,第一,直觉善于发现明显的异常值,但是对于隐藏的问题难以发现;第二,直觉本身可能是错的。
检验数据的质量的一般方法
下一次,再拿到一份数据的时候,想想以往的经验,想想数据本身和数据之间的关系。