好程序员大数据入门学习之Hadoop技术优缺点-低调大师

好程序员大数据入门学习之Hadoop技术优缺点

2019-03-28 647

　　好程序员大数据入门学习之Hadoop技术优缺点

　　(1)Hadoop具有按位存储和处理数据能力的高可靠性。
　　(2)Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以千计的节点中，具有高扩展性。
　　(3)Hadoop能够在节点之间进行动态地移动数据，并保证各个节点的动态平衡，处理速度非常快，具有高效性。
　　(4)Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配，具有高容错性。

　　Hadoop的缺点
　　(1)Hadoop不适用于低延迟数据访问。
　　(2)Hadoop不能高效存储大量小文件。
　　(3)Hadoop不支持多用户写入并任意修改文件。

　　Hadoop的核心组件
　　Hadoop自诞生以来，主要出现了Hadoop1、Hadoop2、Hadoop3三个系列多个版本。
　　HDFS和MapReduce是Hadoop1的核心组件，Hadoop生态圈里的很多组件都是基于HDFS和MapReduce发展出来的。在继Hadoop1之后出现了Hadoop2，Hadoop2在Hadoop1的基础上做了改进。相比Hadoop1，Hadoop2的三大核心组件分别是HDFS、MapReduce、Yarn。目前市面上绝大部分企业使用的是Hadoop2，本书使用的是Hadoop2.7.3这一版本。

　　Hadoop2的一个公共模块和三大核心组件组成了四个模块，简介如下。
　　(1)HadoopCommon：为其他Hadoop模块提供基础设施。
　　(2)HDFS：具有高可靠性、高吞吐量的分布式文件系统。
　　(3)MapReduce：基于Yarn系统，分布式离线并行计算框架。
　　(4)Yarn：负责作业调度与集群资源管理的框架。

　　好程序员大数据培训的终极目标是将你培养成一名“复合型”研发人才，让你自己在掌握相关大数据技术的同时，也能够赢得一份高薪职位!好程序员大数据开发采用“T”字形的思维，以大数据的深度为主，以机器学习、云计算等作为宽度，相辅相成。此外好程序员大数据课程定期组织与一线名企的工程师进行面对面的就企业当下的项目讨论与研发，进而验证所学技术的正确方向。

微信关注我们

原文链接：https://yq.aliyun.com/articles/695879

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark中的RDD、DataFrame、Dataset对比

https://blog.csdn.net/yu0_zhang0/article/details/80489739RDD和DataFrameRDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化，比如filter下推、裁剪等。提升执行效率RDD API是函数式的，强调不变性，在大部分场景下倾向于创建新对象而不是修改老对象。这一特点虽然带来了干净整洁的API，却也使得Spark应用程序在运行期倾向于创建大量临时对象，对GC造成压力。在现有RDD API的基础之上，我们固然可以利用...

2019-03-28

825

分区是hive存放数据的一种方式。将列值作为目录来存放数据，就是一个分区。这样查询时使用分区列进行过滤，只需根据列值直接扫描对应目录下的数据，不扫描其他不关心的分区，快速定位，提高查询效率。分动态和静态分区两种： 1.静态分区：若分区的值是确定的，那么称为静态分区。新增分区或者是加载分区数据时，已经指定分区名。 createtableifnotexistsday_part1( uidint, unamestring ) partitionedby(yearint,monthint) rowformatdelimitedfieldsterminatedby'' ; ##加载数据指定分区 loaddatalocalinpath'/root/Desktop/student.txt'intotableday_part1partition(year=2017,month=04); ##新增分区指定分区名 altertableday_part1addpartition(year=2017,month=1)partition(year=2016,month=12); 2.动态分区：分区的值是非确定的...

2019-03-28

635

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。