【Hadoop】MAC下hadoop2.6安装以及执行wordcount
首先简单介绍下博主的配置环境
- MAC 10.10.0
- hadoop 2.6
- JDK 1.6(可以在shell里用jdk -version查询)
hadoop安装
安装的话推荐使用mac下面的brew,理由就是用brew安装的话,它会自动给帮你配置好相应的路径。当然也可以到官网下载,注意jdk和hadoop版本要对应。
brew install hadoop
安装好了之后,可以使用brew list hadoop 来查看。
位置应该是在:/usr/local/Cellar/hadoop/
这时候就可以直接在shell里执行hadoop命令,是不是很方便。
执行wordcount
首先说一下,现在要执行的wordcount只是简单试验下hadoop是否能工作,并不是多线程的伪分布式,因为还没有配置,这个下一节会讲。
- 1.首先我们先建立以下数据源
- 在ha

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark(二) -- Spark简单介绍
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/45648737 spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写HDFS 从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的map-reduce好 那么到底性能比较好是体现在哪里呢 基于内存的处理是spark速度快的原因之一 还有一个很重要的因素就是DAG DAG,有向无循环图 spark的任务可以分为数据转换和获得结果两步 在获得计算结果之前的操作,都是不执行的,而是根据这些步骤画成一张DAG 到真正要结果的时候才会执行这些计算,拿到计算结果 熟悉hadoop mr模型的人都知道,在mr任务中,每次步骤都会读取HDFS,也就是I/O操作,而一般来说,在...
- 下一篇
Spark(三) -- Shark与SparkSQL
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/45726665 首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的 但是在Spark平台上,Shark的解析速度是Hive的几多倍 它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的 下面给出一张来自网上的Shark构架图 从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着HDFS上的文件 从图中绿色格子中可以看到,在Shark的整个构架中HiveQL的引擎还是占据着底层不可分割的部分,而Meta store的制度是Hive的根本,对Shark的重要性自然不言而喻 Shark中创建一张外部分区表的代码格式如下: create [external] table [if not exists] table_name(col_name data_type,…) [partitioned by (co...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Windows10,CentOS7,CentOS8安装Nodejs环境
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7设置SWAP分区,小内存服务器的救世主
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2配置默认Tomcat设置,开启更多高级功能