《深入理解Hadoop(原书第2版)》——1.2大数据技术背后的核心思想
本节书摘来自华章计算机《深入理解Hadoop(原书第2版)》一书中的第1章,第1.2节,作者 [美]萨米尔·瓦德卡(Sameer Wadkar),马杜·西德林埃(Madhu Siddalingaiah),杰森·文纳(Jason Venner),译 于博,冯傲风,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.2大数据技术背后的核心思想
上文中的例子我们作了诸多假设,要表明的核心问题是虽然我们可以很快地处理数据,但是从持久性的存储设备中读取的速度受到限制,这是整个数据处理流程上的关键瓶颈所在。相对于读写本地节点存储设备上的数据,通过网络来传输数据会更慢。
下面列出了所有大数据处理方法中的一些共同特征:
- 数据分布在多个节点(网络I/O速度<<本地磁盘I/O速度)。
- 计算程序离数据更近(集群上的节点),而不是相反。
- 数据的处