您现在的位置是:首页 > 文章详情

会飞的猪(Pig)

日期:2014-12-20点击:579
版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/42060379

猪会飞么?

提高pig的性能,让猪飞起来有如下办法:
1. 尽早地并经常地进行过滤
2. 尽早地并经常地进行映射
3. 正确并合理地使用Join
4. 选择正确的数据类型,合适的并行值
5. 调整pig 的性能属性:pig.cachedbag.menusage 和pig.skewedjoin.reduce.memusage
6. 对中间结果进行压缩


Describe 命令会显示脚本中指定关系的模式。

explain 可以深入到pig内部看如何将用户的脚本编译成MapReduce任务的。

illustrate 对用户的数据进行抽样并且对抽样的数据执行用户的脚本。

在提交的hadoop集群执行之前,pig需要消耗几秒钟来解析脚本,这些M/R任务真正运行时才会显示在JobTracker页面上。

PigUnit提供了一个集成到JUnit中的单元测试框架,在0.8版本引入的。


Hadoop降低了IO约束但并没有消除,如果map任务的个数两倍于实际的槽位来执行,那就将消耗两倍于平均map过程执行时间来执行完所有的map任务,如果再额外增加一个map任务,所消耗时间将增加到平均时间的3倍。

shuffle数据量大小是指从map任务转移到reduce任务的数据量大小,一般需要m X r 个网络连接。


原文链接:https://yq.aliyun.com/articles/687500
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章