大数据hadoop从入门到精通之hadoop家族产品
大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了。作为一个hadoop入门级的新手,你会觉得哪些地方很难呢?运行环境的搭建恐怕就已经足够让新手头疼。如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起,一次安装搞定所有,那对于新手来说将是件多么美妙的事情!
闲话扯得稍微多了点,回归整体。这篇准备给大家hadoop新入门的朋友分享一些hadoop的基础知识——hadoop家族产品。通过对hadoop家族产品的认识,进一步帮助大家学习好hadoop!同时,也欢迎大家提出宝贵意见!
一、Hadoop定义
Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。
二、Hadoop产品
HDFS(分布式文件系统):
它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提高等,如图是HDFS的基础架构。
MapReduce/Spark/Storm(并行计算架构):
1、数据处理方式来说分离线计算和在线计算:
角色 | 描述 |
MapReduce | MapReduce常用于离线的复杂的大数据计算 |
Storm | Storm用于在线的实时的大数据计算,Storm的实时主要是一条一条数据处理; |
Spark | 可以用于离线的也可用于在线的实时的大数据计算,Spark的实时主要是处理一个个时间区域的数据,所以说Spark比较灵活。 |
2、数据存储位置来说分磁盘计算和内存计算:
角色 | 描述 |
MapReduce | 数据存在磁盘中 |
Spark和Strom | 数据存在内存中 |
Pig/Hive(Hadoop编程):
角色 | 描述 |
Pig | 是一种高级编程语言,在处理半结构化数据上拥有非常高的性能,可以帮助我们缩短开发周期。 |
Hive | 是数据分析查询工具,尤其在使用类SQL查询分析时显示出极高的性能。可以在分分钟完成ETL要一晚上才能完成的事情,这就是优势,占了先机! |
HBase/Sqoop/Flume(数据导入与导出):
角色 | 描述 |
HBase | 是运行在HDFS架构上的列存储数据库,并且已经与Pig/Hive很好地集成。通过Java API可以近无缝地使用HBase。 |
Sqoop | 设计的目的是方便从传统数据库导入数据到Hadoop数据集合(HDFS/Hive)。 |
Flume | 设计的目的是便捷地从日志文件系统直接把数据导入到Hadoop数据集合(HDFS)中。 |
以上这些数据转移工具都极大地方便了使用的人,提高了工作效率,把精力专注在业务分析上。
ZooKeeper/Oozie(系统管理架构):
角色 | 描述 |
ZooKeeper | 是一个系统管理协调架构,用于管理分布式架构的基本配置。它提供了很多接口,使得配置管理任务简单化。 |
Oozie | Oozie服务是用于管理工作流。用于调度不同工作流,使得每个工作都有始有终。这些架构帮助我们轻量化地管理大数据分布式计算架构。 |
Ambari/Whirr(系统部署管理):
角色 | 描述 |
Ambari | 帮助相关人员快捷地部署搭建整个大数据分析架构,并且实时监控系统的运行状况。 |
Whirr | Whirr的主要作用是帮助快速地进行云计算开发。 |
Mahout(机器学习):
Mahout旨在帮助我们快速地完成高智商的系统。其中已经实现了部分机器学习的逻辑。这个架构可以让我们快速地集成更多机器学习的智能。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark性能优化:开发调优篇
1、前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此,想要用好Spark,就必须对其进行合理的性能优化。Spark的性能调优实际上是由很多部分组成的,不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以及数据情况,对Spark作业进行综合性的分析,然后进行多个方面的调节和优化,才能获得最佳性能。笔者根据之前的Spark作业开发经验以及实践积累,总结出了一套Spark作业的性能优化方案。整套方案主要分为...
- 下一篇
7月17日云栖精选夜读丨用技术传递专业的力量,阿里云将重磅推出《MVP Time》
依然记得2017年6月11日,阿里云总裁胡晓明在云栖大会·上海峰会上宣布正式启动中国云厂商首个全球最有价值技术贡献者项目——阿里云 MVP计划,瞬间全场沸腾的情景。时隔一年,阿里云齐聚各行业阿里云 MVP, 将他们沉淀的精品内容以行业系列《MVP TIME》分享给数字化转型进程中的个人与企业用户。 热点热议 用技术传递专业的力量,阿里云将重磅推出《MVP Time》 作者:阿里云服务 发表在:阿里云服务 获中科院战略投资,开启人工智能大应用时代 作者:白翊发表在:阿里双创在线 别上当!大部分AI企业都是蹭人工智能热点的! 作者:技术小能手发表在:人工智能观察 知识整理 微信小程序组件化开发框架wepy 学习(一) 作者:小和子茶发表在:前端那些事儿 微信小程序组件化开发框架wepy 学习(二) 作者:小和子茶发表在:前端那些事儿 手把手教你搭建vue-cli脚手架-详细步骤图文解析[vue入门] 作者:小和子茶发表在:前端那些事儿 二分法优化 作者:accompanymin 大数据hadoop从入门到精通之hadoop家族产品 作者:大数据资讯 美文回顾 微信小程序:wx.getUse...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块