学习hadoop需要什么基础
“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难!
趁着学校放假的时间,写了一些hadoop学习分享的文章。刚开始写的几篇稍微有点乱,其中有一篇就是在说学习hadoop需要什么样基础的。所谓的难不会,会不难,必然也是建立你现在的基础之上的。假定你连基础的计算机基础都没有,那可能真的就是“难不会”了。如果你是有一个良好的计算机基础的,比如,虚拟机的配置你会、拥有JAVA基础和Linux操作基础,那学习hadoop对你来可能就是“会不难”哦!
当你看了很多介绍“学习hadoop需要什么基础”的文章后,你一定会得出一个结论,那就是学习hadoop所必须的三个基础技能:JAVA基础、Linux基础、虚拟机基础(上面已经说过了)。所有的文章在说完这个三个基础之后,好像在告诉我们所有人,你只要有这个三个基础就一定能够学好hadoop,从此走上人生巅峰······其实,也不尽然,只有当你真正接触了hadoop,你才会发现真正的问题所在。
接触过hadoop的人都知道,单独搭建hadoo里每个组建都需要运行环境、修改配置文件、测试等过程。如果仅仅是安装一下运行环境就行了,那你就大错特错了,几乎每个组件都是坑,这些坑几乎是不可能让初学者有一个愉快的学习过程的。Hadoop虽然起源于国外,但国内发行版本也蛮多,但是都没有去解决环境搭建的问题。如果说他们没有关注到运行环境搭建繁琐这样的问题话,我肯定是不相信的。真的不知道是他们现在的技术解决不了这个问题,还是不想去花费时间去解决?
今年3月初的时候,一个做程序开发的朋友给了一个国产发行版DKHadoop,是大快搜索开源的发行版hadoop。这款hadoop版本终于解决了运行环境搭建繁琐的问题,它将开源社区里多种常用的组件包括:HDFS,Hbase,Storm,Spark,Flume,Kafka,Mahout,ES等都集成到一个平台里,只需简单的一键安装就能完成,需要调用的时候直接调用即可,终于让我觉得不用在像以前拿样再去安装调试等等。
所以,我觉得学习hadoop需要的不仅仅是JAVA、虚拟机、Linux这三个方面的基础,选择的hadoop版本也是很重要。我们学习hadoop的重点是想要去开发一些东西,而不是为了学习运行环境的安装,这样会让人觉得有点本末倒置!
正在学习hadoop或者准备学习hadoop的朋友,个人还是比较推荐DKHadoop这套发行版,毕竟对新手而言算是很友好的了。我在用的是标准本三节点dkhadoop版本(放心,是免费的),虽然是免费的,但权限都是开放的。所以,对于新手或者个人研究而言已经够用了。需要dkhadoop安装包的,可以留言给我,可以打包发你!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark性能优化:基于分区进行操作
版权声明:本文由董可伦首发于https://dongkelun.com,非商业转载请注明作者及原创出处。商业转载请联系作者本人。 https://blog.csdn.net/dkl12/article/details/82496977 我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/ 前言(摘自Spark快速大数据分析) 基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作。Spark 提供基于分区的map 和foreach,让你的部分代码只对RDD 的每个分区运行一次,这样可以帮助降低这些操作的代价。 当基于分区操作RDD 时,Spark 会为函数提供该分区中的元素的迭代器。返回值方面,也返回一个迭代器。除mapPartitions() 外,Spark 还有一些别的基于分区的操作符,见下表: 函数名 调用所提供的 返回的 对于RDD[T]的函数签名 mapPartitions() 该分区中元素的迭代器 返回的...
- 下一篇
【云周刊】第187期:阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能
本期头条 阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能 将存储与计算分开来大有意义,对于部署的云数据库而言更是如此。为此,阿里巴巴推出了一种新开发的名为PolarFS的分布式文件系统,旨在确保低延迟和高可用性。这个文件系统与阿里云上自己的PolarDB数据库服务搭配使用。像PolarDB这样的云数据库服务(或者各大云提供商的平台上的同类云数据库服务)拥有一个更具可扩展性且安全的基础以便充分利用容器,并以快速I/O、检查点和数据共享来支持后端存储集群,从而充分发挥将存储资源和计算资源分开来的这种做法具有的好处。点击查看 全球区块链专利榜,阿里蝉联冠军 阿联酋深化与支付宝合作,迪拜多店可刷支付宝 马云亮相亚运会闭幕式,向全世界发出邀请! 助力非洲数字化转型,阿里巴巴与卢旺达合作推进eWTP 印尼总统会谈马云:用互联网
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8编译安装MySQL8.0.19