大数据初探——Hadoop历史
Hadoop是一个开源的分布式框架,是Apache下的一个开源项目。Hadoop运行可以在成千上万个普通机器节点组成的集群上,通过分布式的计算模型和存储模型来处理大数据集。Hadoop具有高容错性、工作在普通的机器节点上扩展性强等众多的优点,是企业选择处理大数据集工具的不二“人”选。
这个框架是另一个大项目的一部分,有数据库管理专家Mike Cafarella与开源技术的支持者DougCutting所构建。两人创建了一个名叫Nutch的网络爬虫与分析系统,该系统使用集群运算同时执行多项任务。之后Nutch演化成两个系统,其中之一就是Hadoop分布式管理系统。
Hadoop核心组成部分
- Hadoop Common:包括函数库与工具功能,对Hadoop的其他模块提供支持。
- Hadoop分布式文件系统(HDFS):基于Java,具有高扩展性,允许在未经预先安排的多台计算机上存储数据——本质上是打造一个类似单文件系统运作的节点社区。
- MapReduce:Hadoop的一个处理大数据集的分布式计算框架,可处理结构化与非结构化数据集,具有可靠性与高容错性。
- Yarn(另一种资源协调方式):是一种资源管理框架,用来处理多个分布式架构发送的资源请求调度。
常用数据存取部分
- pig:专为数据分析设计的编程语言,无需花费大量时间构建映射和化简操作,即可处理任何类型的数据。
- Hive:类似SQL的查询语言——HQL,将sql语句编译到MapReduce中,再跨集群分发出去。
- Flume:从应用中收集大量数据,并将它们转入HDFS文件系统中。
- Spark:开源集群运算系统,在某些情况下进行数据分析时比MapReduce块100倍。
- Sqoop:数据传输工具,可以提取、加载并转换结构化数据。
- Hbase:NoSQL数据库一种,可在HDFS上运行。
Hadoop生态圈架构图

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark(十二)--性能调优篇
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/48505701 一段程序只能完成功能是没有用的,只能能够稳定、高效率地运行才是生成环境所需要的。 本篇记录了Spark各个角度的调优技巧,以备不时之需。 一、配置参数的方式和观察性能的方式 额。。。从最基本的开始讲,可能一些刚接触Spark的人不是很清楚Spark的一些参数变量到底要配置在哪里。 可以通过三种方式配置参数,任选其一皆可。 spark-env.sh文件中配置:最近常使用的配置方式,格式可以参考其中的一些官方保留的配置。 程序中通过SparkConf配置:通过SparkConf对象set方法设置键值对,比较直观。 程序中通过System.setProperty配置:和方法二差不多。 值得一提的是一个略显诡异的现象,有些参数在spark-env.sh中配置并不起作用,反而要在程序中设置才有效果。 Spark的参数很多,一些默认的设置可以参考官网推荐的配置参数:/docs/latest/configuration.html...
- 下一篇
ssh无密码登陆(转)
【0】写在前面 由于ssh 实现的是免密码登陆,大致步骤是: 0.1) client通过ssh登陆到server; 0.2) server检查家目录下的.ssh文件, 并发送公钥文件 authorized_keys 到client ; 0.3) client端 接收到 server 端的公钥文件,并用自己的私钥文件对 其进行解析,并计算出 新的 公钥文件C; 0.4) server段 接收到 client的 公钥文件C,并将其与 自身的公钥文件,进行匹配,(它有它自己的匹配算法, 这个你不管),如果匹配成功,则client 成功登陆到server; (Attention): 看到这里,不得不说建立ssh 免密码登陆的中间过程确实很复杂,所以ssh对配置文件的访问权限,要求相当苛刻。如友人您,不根据本文的访问权限进行相应设置,使得最终无法建立免密码登陆,后果自负(这里只是为了强调 ssh 对 配置文件的访问权限 要求非常得严格!(过来人的感受,仅仅是你配置文件的访问权限不完全正确,ssh 一直无法实现 正常的免密码登陆, 很烧精力) 【1】安装ssh server installatio...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,CentOS8安装Elasticsearch6.8.6
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程