Pig安装讲解
Pig 简介: Pig 是 Apache 项目的一个子项目,Pig 提供了一个支持大规模数据分析的平台,Pig 突出的特点就是它的结构经得起大量并行任务的检验,使得它能够处理大规模数据集 Pig 特点: Pig可简化MapReduce任务的开发 Pig可以看做Hadoop的客户端软件,可以连接到Hadoop集群进行数据分析工作 Pig方便不熟悉Java的用户,使用一种较为简便的类似 SQL的面向数据流的语言PigLatin语言进行数据处理 PigLatin可以进行排序,过滤,求和,分组,关联等常用操作,还可以自定义函数,这是面向数据分析处理的轻量级脚本语言 Pig可以看做是PigLatin到MapReduce的映射器 当Pig在MapReduce模式运行时,它将访问一个Hadoop集群和HDFS的安装位置。这时Pig将自动地对这个集群进行分配和回收 Pig的数据模式:relation(关系), bag(包), tuple(元组), field(字段,列) relation(关系):具有相同字段(列)的tuple称为关系 bag(包):与关系型数据库中的表类似,包含多个 tup...





