阿里封神谈hadoop生态学习之路
引言
当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务。每个产品、都需要工程化的实现,以前,工程师都是操练着java/python/c等各种语言操纵中各类的软件,比如jquery,spring、mysql,实现产品的业务逻辑。在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark、hbase、jstorm等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前在负责阿里云的HBase产品。在这,笔者尽可能梳理下,本文是围绕hadoophbase的。对于算法、机器学习是另一个范畴,本篇不涉及,不过从事机器学习算法的研发,能力最好在中级之上。
要想成为专家,并未一朝一夕,需要自己在业余时间花费较多的时间,我们一起加油!
初级
开
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HDFS中数据节点数据块存储示例
数据块在数据节点上是按照如下方式存储的。 首先是一个存储的根目录/hadoop/data/dfs/dn,如下图所示: 接着进入current目录,如下图所示: 再进入后续的BP-433072574-192.168.1.224-1440568979639下current目录,如下图所示: 在它下面,有一个版本号文件VERSION和分布式文件系统使用情况文件dfsUsed,然后就是两个文件夹,其中rbw存储的是处于写过程中的数据块,而finalized存储的则是写已完成并提交的数据块。我们看下finalized下的内容,如下图所示: finalized下有很多子目录,进入subdir4,如下图所示: 又有很多子目录,再进入subdir42,如下图所示: 这就是数据块数据文件及其元文件的真正存储地了,其中blk开头的数据块数据文件,数字表示数据块ID,而.mta结尾的则是数据块元数据问文件。数据块副本的存储路径有一个基础路径,并由众多的子路径保持组成。这几点与我们在《HDFS源码分析之数据块Block、副本Replica》一文中讲到的一样...
- 下一篇
ElasticSearch 简介
es是一个基于lucene的全文搜索引擎。它是一个可以处理数以亿计的文档和每秒数以百计的搜索请求的分布式解决方案。 1.节点和集群 为了实现容错与高可用性,es可以运行在集群(cluster)中,每一台集群中的机器称为节点(node)。 2.分片 每个分片都是一个独立的lucene索引,不同的分片运行在不同的机器中。当用户查询的索引分布在多个分片上时,es会把查询分发给每个相关的分片,并将结果合并在一起。 3.副本 为了提高吞吐量或实现高可用性,可以使用分片副本。 副本,replica:一个分片的复制品称为副本。 主分片,primary shard:es可以有许多相同的分片,其中之一会被自动选择去更改索引操作,这种特殊的分片称为主分片。 副本分片,relica shard:主分片以外的分片称为副本分片。 4.时光之门 集群的状态由时光之门控制。 5.web端插件 es-head插件,是一个web端插件,可以方便地查看集群状态与搜索。 项目地址: es-head 插件。两种使用方式,见5.1 与 5.2。 使用效果图见图5-1. 图5-1 es-head插件 5.1安装到server 将...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8编译安装MySQL8.0.19
- CentOS8安装Docker,最新的服务器搭配容器使用