可爱的猪——Pig
版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/41911435 大数据和云计算涉及的技术众多,数据流处理涉及的技术也很多,如storm,spark等,之所以看看pig,是因为我自己是属猪的。 pig 提供了一个基于hadoop并行执行数据流处理的引擎,以Pig Latin来描述数据流,相当于一个有向无环图(DAG),节点代表处理数据的操作符,节点间的向量代表数据流。pig 提供了类SQL的标准操作,比直接写mapreduce代码更容易维护,主要用于ETL,原生数据研究和迭代处理。 pig 什么数据都吃,也能在非hadoop上并行运算,容易控制和修改,性能较快。 用户提交hadoop任务的那台机器,可以提取出来作为网关机。 Pig核心是Java写的,所以要注意JAVA_HOME环境变量的设置,启动pig的脚本是bash,既可以运行在本地,也可以运行在hadoop集群上,这时需要知道集群的NameNode和JobTracker所在的位置...