被神话的大数据——从大数据(big data)到深度数据(deep data)思维转变
自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来。有些人认为,深度学习的再一次兴起是源于硬件的提升、数据量的增多以及高效算法的研究。这并不完全精确,有一个基本的误解是更大的数据会产生更好的机器学习结果。然而,更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是,要把重心专注于数据的质量、价值以及多样性,而不仅仅是数据的规模——“深度数据”(deep data)比大数据(big data)好。 随着研究的进行,人们对大数据的炒作逐渐在减弱。云计算、Hadoop及其变种已经能够解决一些大数据的问题。但是“大数据”是指许多人仍在花费大量资金建设更大的基础设施来处理、保存和管理的庞大数据库。这种盲目追求“大”的做法,在基础设施和人力资源方面产生了巨大的、且本可避免的成本。