hadoop笔记一
HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表:(one,1) (small,1) (step,1) (for,1) (man,1)
MapReduce 流程的概念流
(one,1) (giant,1) (leap,1) (for,1) (mankind,1)如果对这个键/值对列表应用 Reduce 函数,将得到以下一组键/值对:(one,2) (small,1) (step,1) (for,2) (man,1)(giant,1) (leap,1) (mankind,1)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
spark 之 Scala 环境搭建,开发工具使用
1,首先介绍官网网站 http://scala-lang.org/ 下载windows 的exe直接进行安装就行。 安装后有个本地文档可以使用: 2,工具使用 继续使用eclipse。如果是IDEA直接使用插件就行了。 http://scala-ide.org/download/current.html 安装url: http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site 3,创建工程 scala 学习非常简单 http://zh.scala-tour.com/#/welcome 4,Hello world 在eclipse创建一个工程 package demo_001 object HelloWorld { def hello(name: String): String = { return "hello world, " + name } def main(args: Array[String]) { println(hello("scala")); } }
-
下一篇
hadoop整体结构图及服务组件详解
hadoop服务组件简单解释 1、core 分布式系统和通用IO组件和接口(序列化、java远程调用等等服务) 2、avro 支持跨语言过程调用,持久数据存储的数据序列化系统 3、MapReduce 构建在廉价的pc机器上分布式数据处理模型和运行环境 4、hdfs 构建廉价的pc机器上分布式文件系统 5、pig 处理海量数据集的数据流语言和运行环境 ,pig运行在HDFS和MapReduce之上 6、HBase 分布式面向列的数据库 ,HBase使用HDFS作为底层存储, 同时使用MapReduce支持批处理模式的计算机和随机查询 7、 Zookeeper 提供分布式、高效的协作服务以及分布式锁这样的原子操作、可以用来构建分布式应用 8、hive 分布式数据仓库 、 Hive使用Hdfs存储数据,提供类似sql的语句(转换为MapReduce任务) 查询数据 9、chukwa 分布式数据采集和分析系统 、 使用HDFS 存储数据 、 使用MapReduce输出分析报告
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8编译安装MySQL8.0.19
- MySQL数据库在高并发下的优化方案
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- CentOS7,8上快速安装Gitea,搭建Git服务器