大量数据≠大数据
Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。 在大数据时代,人们很容易把一大堆数据定义为“大数据”,比如,大型制造企业和仓库可能存有多年积累下来的存货数据,或许高达几兆兆字节,但这并不能算大数据。同样,1500个PoS机的现金数据、一大份工作表中的数据也不是大数据。 企业需要行之有效的方法去储存、分析、使用数据,如果管理的不是大数据问题,那就没有必要建立数据池、雇佣数据科学家,也没有必要买一堆Hadoop产品去管理。说到底,辨别所管理的是大数据还是大量数据至关重要。以下推出五种辨别方法: 数据是否来源于多种不同渠道? 如果数据来源单一,即使数据量很大,也不太可能是大数据。 职业数据人会考虑大数据的三V(或4V):数量,多样性,速度,(精确性)。本文讨论的就是第二种:多样性。一般来说,大数据往往不是来自于单一源头或系统,而是来自于许多不同的地方,不同的...
