hadoop笔记一

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。
Apache  下的一个项目,由 HDFS MapReduce HBase Hive  ZooKeeper 等成员组成。其中, HDFS  MapReduce  是两个最基础最重要的成员
Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System [3] (HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是 MapReduce  引擎,该引擎由 JobTrackers 和 TaskTrackers 组成
​hadoop两部分组成
    1、分布式文件系统(    HDFS Hadoop distributed FileSystem
       2、MapReduce  

​hadoop两大类角色:
      1、master    主服务器
      2、salve      子服务器

1、分布式文件系统
         1、NameNode    作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作(CRUD)
                        统计数据需要多大的空间,多少个DataNode块,进行存储数据
         2、DataNode    管理存储的数据   
                        数据真正储存的节点内容、或者物理地址  存储(blockID-块地址, data- 数据)
         hadoop启动时会将dataNode节点的数据主动上传到NameNode空间中,让所有的数据都让nameNode维护起来,DataNode与NameNode保持心跳(实时通信)实现数据共享、
​2、 MapReduce    分布式计算 任务处理     JobTrackers 和 TaskTrackers 组成
             ​1、Map 接受数据并且将数据抓换成key \ value形式保存
            2、Reduce  对Map进行逻辑处理  排序  、 计算、处理的逻辑处理
             同时又两个集中处理的子任务
              1、 JobTracker、 分解任务的执行
              2、TaskTracker、 任务的执行(分解出来的任务执行(存储在硬盘或DataNode))
假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表:
(one,1) (small,1) (step,1) (for,1) (man,1)

MapReduce 流程的概念流

(one,1) (giant,1) (leap,1) (for,1) (mankind,1)
如果对这个键/值对列表应用 Reduce 函数,将得到以下一组键/值对:
(one,2) (small,1) (step,1) (for,2) (man,1)(giant,1) (leap,1) (mankind,1)


HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,
MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/62381

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。