什么是大数据?如何成为大数据工程师?
笔者是工程师而非技术或平台传教者,我想用务实一点的方式来看待大数据。 大数据技术最重要的核心在于如何设计可以高性能处理大量数据的程式 (highly scalable programs.) 目前大数据相关工作可以粗分几类。有资料系统串接者, 设计大数据演算法实做的人,以及管理大型丛集 (cluster) 的工程师。 很多人对大数据工程师的理解还停留在资料系统串接者的程度, 以为只要将资料汇入某个神奇系统,就能将自己想要的结果生出来。 但实际上数据量变得很大时,我们往往需要自己客制化自己的资料系统,并且撰写特殊的演算法处理之。 以台湾和美国业界而言,第二种工程师是最稀少也需求量最高的。 这本书的目的就是由浅入深的介绍如何成为此类型的工程师。 有些人可能会有点意外,为什么资料科学家不在其列? 因为资料科学从一开始就是和大数据独立的概念。大数据学习交流KOU 群: 74零零加【4一38 yi】而且一般而言大多数资料工程师处理的数据量也偏小,使用的演算法也多是 O(N²)以上的复杂度。 阅读本章之后,请不要再把「大数据分析」一词挂在口中了。 只有非常少数能同时精通大数据演算法设计及资料科学的人...