hadoop笔记一-低调大师

hadoop笔记一

2014-03-20 804

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。

是 Apache 下的一个项目，由 HDFS 、 MapReduce 、 HBase 、 Hive 和 ZooKeeper 等成员组成。其中， HDFS 和 MapReduce 是两个最基础最重要的成员

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System ^[3] （HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS（对于本文）的上一层是 MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成

hadoop两部分组成

1、分布式文件系统（ HDFS Hadoop distributed FileSystem ）

2、MapReduce

hadoop两大类角色：

1、master 主服务器

2、salve 子服务器

1、分布式文件系统

1、NameNode 作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作(CRUD)

统计数据需要多大的空间，多少个DataNode块，进行存储数据

2、DataNode 管理存储的数据

数据真正储存的节点内容、或者物理地址存储（blockID-块地址, data- 数据）

hadoop启动时会将dataNode节点的数据主动上传到NameNode空间中，让所有的数据都让nameNode维护起来，DataNode与NameNode保持心跳（实时通信）实现数据共享、

2、 MapReduce 分布式计算和任务处理 JobTrackers 和 TaskTrackers 组成

1、Map 接受数据并且将数据抓换成key \ value形式保存

2、Reduce 对Map进行逻辑处理排序、计算、处理的逻辑处理

同时又两个集中处理的子任务

1、 JobTracker、分解任务的执行

2、TaskTracker、任务的执行（分解出来的任务执行（存储在硬盘或DataNode））

假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表：

（one,1） (small,1） (step,1） (for,1） (man,1）

MapReduce 流程的概念流

(one,1） (giant,1） (leap,1） (for,1） (mankind,1）

如果对这个键/值对列表应用 Reduce 函数，将得到以下一组键/值对：

（one,2） (small,1） (step,1） (for,2） (man,1）（giant,1） (leap,1） (mankind,1）

HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，

MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果

微信关注我们

原文链接：https://yq.aliyun.com/articles/62381

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

spark 之 Scala 环境搭建，开发工具使用

1，首先介绍官网网站 http://scala-lang.org/ 下载windows 的exe直接进行安装就行。安装后有个本地文档可以使用： 2，工具使用继续使用eclipse。如果是IDEA直接使用插件就行了。 http://scala-ide.org/download/current.html 安装url： http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site 3，创建工程 scala 学习非常简单 http://zh.scala-tour.com/#/welcome 4，Hello world 在eclipse创建一个工程 package demo_001 object HelloWorld { def hello(name: String): String = { return "hello world, " + name } def main(args: Array[String]) { println(hello("scala")); } }

2014-03-15

888

hadoop服务组件简单解释 1、core 分布式系统和通用IO组件和接口（序列化、java远程调用等等服务） 2、avro 支持跨语言过程调用，持久数据存储的数据序列化系统 3、MapReduce 构建在廉价的pc机器上分布式数据处理模型和运行环境 4、hdfs 构建廉价的pc机器上分布式文件系统 5、pig 处理海量数据集的数据流语言和运行环境，pig运行在HDFS和MapReduce之上 6、HBase 分布式面向列的数据库，HBase使用HDFS作为底层存储，同时使用MapReduce支持批处理模式的计算机和随机查询 7、 Zookeeper 提供分布式、高效的协作服务以及分布式锁这样的原子操作、可以用来构建分布式应用 8、hive 分布式数据仓库、 Hive使用Hdfs存储数据，提供类似sql的语句（转换为MapReduce任务）查询数据 9、chukwa 分布式数据采集和分析系统、使用HDFS 存储数据、使用MapReduce输出分析报告

2014-03-23

996

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。