会飞的猪(Pig)
猪会飞么?
提高pig的性能,让猪飞起来有如下办法:
1. 尽早地并经常地进行过滤
2. 尽早地并经常地进行映射
3. 正确并合理地使用Join
4. 选择正确的数据类型,合适的并行值
5. 调整pig 的性能属性:pig.cachedbag.menusage 和pig.skewedjoin.reduce.memusage
6. 对中间结果进行压缩
Describe 命令会显示脚本中指定关系的模式。
explain 可以深入到pig内部看如何将用户的脚本编译成MapReduce任务的。illustrate 对用户的数据进行抽样并且对抽样的数据执行用户的脚本。
在提交的hadoop集群执行之前,pig需要消耗几秒钟来解析脚本,这些M/R任务真正运行时才会显示在JobTracker页面上。
PigUnit提供了一个集成到JUnit中的单元测试框架,在0.8版本引入的。
Hadoop降低了IO约束但并没有消除,如果map任务的个数两倍于实际的槽位来执行,那就将消耗两倍于平均map过程执行时间来执行完所有的map任务,如果再额外增加一个map任务,所消耗时间将增加到平均时间的3倍。
shuffle数据量大小是指从map任务转移到reduce任务的数据量大小,一般需要m X r 个网络连接。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
与猪(pig)共舞
版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/42043951 猪在吃东西的时候稍有浪费,pig 也有类似的情况. pig执行时消耗的内存,一般对没有压缩的数据,将会占用4倍于本地磁盘空间的内存空间。Pig中的NULL与SQL中的NULL概念一样,类型转换的语法与Java中的语法是一样的,是强类型的。 过程函数 Pig Latin 是一种数据流语言,每个处理步骤都产生一个新的数据集,或产生一个新的关系。无论关系还是字段都是以字母字符开头,大小写敏感,注释和java相同。 任何一种数据流处理的第一步都是指定输入,pig通过load语句完成。默认加载函数是PigStorage,加载存放在HDFS中且以制表符分割的文件,可以使用相对路径或绝对路径。 更多情况是应用Using 语句指定指定加载函数,例如 Using HBaseStorage() 是从HBase中加载数据。 进一步,使用as语句确定加载的数据指定模式。同时,PigStorag...
- 下一篇
hbase的Region分裂代码分析
region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种情景在代码实现上并无多大差异。 1.下面以手动的split为例分析,手动split有HregionServer的splitRegion开始 @Override//手动split的实现 publicvoidsplitRegion(HRegionInforegionInfo,byte[]splitPoint) throwsNotServingRegionException,IOException{ checkOpen(); HRegionregion=getRegion(regionInfo.getRegionName()); region.flushcache();//刷新memstore,减少内存堆积 region.forceSplit(splitPoint);//强制split compactSp...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Red5直播服务器,属于Java语言的直播服务器
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker使用Oracle官方镜像安装(12C,18C,19C)