《Pig编程指南》一1.1 Pig是什么?
本节书摘来异步社区《Pig编程指南》一书中的第1章,第1.1节,作者: 【美】Alan Gates 译者: 曹坤,更多章节内容可以访问云栖社区“异步社区”公众号查看。 第1章 初识Pig Pig编程指南 1.1 Pig是什么? Pig提供了一个基于Hadoop的并行地执行数据流处理的引擎。它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作(如join、sort、filter等),同时允许用户自己开发一些自定义函数用来读取、处理和写数据。 Pig是一个Apache开源项目。这意味着用户可以免费下载源码或者二进制包,自由使用它,对这个项目贡献自己的代码,同时也可以在Apache License的许可范围下将Pig用到自己的产品中或者在需要的时候修改代码来满足特定需求。 1.1.1 Pig是基于Hadoop的 Pig运行于Hadoop之上,它同时使用到Hadoop分布式文件系统HDFS和Hadoop处理系统MapReduce。 HDFS是一个分布式文件系统,它将文件存储到Hadoop集群的各个节点上。它负责将文件分割成许多数据块然...