hadoop笔记一
HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表:(one,1) (small,1) (step,1) (for,1) (man,1)
MapReduce 流程的概念流
(one,1) (giant,1) (leap,1) (for,1) (mankind,1)如果对这个键/值对列表应用 Reduce 函数,将得到以下一组键/值对:(one,2) (small,1) (step,1) (for,2) (man,1)(giant,1) (leap,1) (mankind,1)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
spark 之 Scala 环境搭建,开发工具使用
1,首先介绍官网网站 http://scala-lang.org/ 下载windows 的exe直接进行安装就行。 安装后有个本地文档可以使用: 2,工具使用 继续使用eclipse。如果是IDEA直接使用插件就行了。 http://scala-ide.org/download/current.html 安装url: http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site 3,创建工程 scala 学习非常简单 http://zh.scala-tour.com/#/welcome 4,Hello world 在eclipse创建一个工程 package demo_001 object HelloWorld { def hello(name: String): String = { return "hello world, " + name } def main(args: Array[String]) { println(hello("scala")); } }
- 下一篇
hadoop整体结构图及服务组件详解
hadoop服务组件简单解释 1、core 分布式系统和通用IO组件和接口(序列化、java远程调用等等服务) 2、avro 支持跨语言过程调用,持久数据存储的数据序列化系统 3、MapReduce 构建在廉价的pc机器上分布式数据处理模型和运行环境 4、hdfs 构建廉价的pc机器上分布式文件系统 5、pig 处理海量数据集的数据流语言和运行环境 ,pig运行在HDFS和MapReduce之上 6、HBase 分布式面向列的数据库 ,HBase使用HDFS作为底层存储, 同时使用MapReduce支持批处理模式的计算机和随机查询 7、 Zookeeper 提供分布式、高效的协作服务以及分布式锁这样的原子操作、可以用来构建分布式应用 8、hive 分布式数据仓库 、 Hive使用Hdfs存储数据,提供类似sql的语句(转换为MapReduce任务) 查询数据 9、chukwa 分布式数据采集和分析系统 、 使用HDFS 存储数据 、 使用MapReduce输出分析报告
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- CentOS8编译安装MySQL8.0.19
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Red5直播服务器,属于Java语言的直播服务器
- Windows10,CentOS7,CentOS8安装Nodejs环境