搜索[hadoop]结果-低调大师优秀个人博客

精选列表

搜索[hadoop]，共8441篇文章

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一第2章环境准备

本节书摘来异步社区《Hadoop海量数据处理：技术详解与项目实战（第2版）》一书中的第2章，第2.1节，作者：范东来责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2017-05-01

【干货】Apache Hadoop 2.8 完全分布式集群搭建超详细过程，实现NameNode HA、ResourceManager HA高...

从apache hadoop的官网上面下载最新的稳定版本 apache hadoop 2.8 切换到 ahadoop 用户，将hadoop 2.8放于 /home/ahadoop 目录中，并解压 su

2017-05-01

Hadoop 容错之1.X的单点故障到 2.X的HA和HDFS Federation

HA（High Availability），在这篇博客中我们就来看一下Hadoop容错机制的演变之路一：1.x和2.x的架构对比具体可参考之前的一篇博文：Hadoop1.X 与 Hadoop2.

2016-08-30

记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决

由于输入文件是经过sqoop从关系型数据库抽取的，采用了lzo进行压缩，而Hadoop默认不支持压缩算法lzo，需要单独安装hadoop-lzo，查看Hadoop集群配置，发现我们之前已经做好了这方面的工作

2016-07-13

Hadoop2.7实战v1.0之动态添加DataNode和NodeManager节点(不修改dfs.replication)

/hadoop-2.7.2/etc/hadoop [root@sht-sgmhadoopnn-01 hadoop]# vi slaves sht-sgmhadoopdn-01 sht-sgmhadoopdn

2016-03-09

Hadoop2.7实战v1.0之添加DataNode节点后,更改文件复制策略dfs.replication

查看当前系统的复制策略dfs.replication为3,表示文件会备份成3份 a.通过查看hdfs-site.xml 文件点击(此处)折叠或打开 [root@sht-sgmhadoopnn-01 ~]# cd /hadoop

2016-03-05

专访阿里王峰：Hadoop生态下一代计算引擎-streaming和batch的统一

编者按：Hadoop于2006年1月28日诞生，至今已有10年，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。

2016-02-16

Hadoop大数据平台实战(05)：深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8...

Spark可以以分布式集群架构模式运行，如果我们不熟Spark Cluster，这个时候需要集群管理器帮助我们管理Spark 集群。集群管理器根据需要为所有工作节点提供资源，操作所有节点。负责管理和协调集群节点的程序一般叫做：Cluster Manager，集群管理器。目前搭建Spark 集群，可以的选择包括Standalone，YARN，Mesos，K8s，这么多工具，在部署Spark集群时很难选择，哪些是最好的Apache Spark集群管理器？接下来我们会详细介绍了每个集群管理器的功能，并详细介绍调度原理，HA（高可用性），安全性和监控机制。Apache Spark是一个高性能分布式大数据处理引擎，可以以分布式集群模式运行。 Spark应用程序作为集群上的独立进程集运行，所有这些都由中央协调器协调。这个中央协调器可以连接4

2019-04-10

Hadoop HDFS概念学习系列之名字节点和第二名字节点（十三）

名字节点(NameNode )是HDFS主从结构中主节点上运行的主要进程，它指导主从结构中的从节点，数据节点(DataNode)执行底层的I/O任务。名字节点是HDFS的书记员，维护着整个文件系统的文件目录树，文件/目录的元信息和文件的数据块索引，即每个文件对应的数据块列表(后面的讨论中，上述关系也称名字节点第一关系)。这些信息、以两种形式存储在本地文件系统中:一种是命名空间镜像(File SystemImage, FSImage,也称文件系统镜像)，另一种是命名空间镜像的编辑日志(Edit Log) 。命名空间镜像保存着某一特定时刻HDFS的目录树、元信息和数据块索引等信息，后续对这些信息的改动，则保存在编辑日志中，它们一起提供了一个完整的名字节点第一关系。同时，通过名字节点，客户端还可以了解到数据块所在的数据节点信息。需要注意的是，名字节点中与数据节点相关的信息不保留在名字节点的本地文件系统中，也就是上面提到的命名空间镜像和编辑日志中，名字节点每次启动时，都会动态地重建这些信息，这些信息构成了名字节点第二关系。运行时，客户端通过名宇节点获取上述信息，然后和数据节点进行交互，读写文件数据。另外，名字节点还能获取HDFS整体运行状态的一些信息，如系统的可用空间、己经使用的空间、各数据节点的当前状态等。第二名字节点(Secondary NameNode, SNN)是用于定期合并命名空间镜像和镜像编辑日志的辅助守护进程。和名字节点一样，每个集群都有一个第二名字节点，在大规模部署的条件下，一般第二名字节点也独自占用一台服务器。第二名字节点和名字节点的区别在于：它不接收或记录HDFS的任何实时变化，而只是根据集群配置的时问间隔，不停地获取HDFS某一个时间点的命名空间镜像和镜像的编辑日志，合并得到一个新的命名空间镜像。该新镜像会上传到名字节点，替换原有的命名空间镜像，并清空上述日志。应该说，第二名字节点配合名字节点，为名字节点上的名字节点第一关系提供了一个简单的检查点(Checkpoint)机制，并避免出现编辑日志过大，导致名字节点启动时间过长的问题。如前面所述，名字节点是 HDFS集群中的单一故障点，通过第二名字节点的检查点，可以减少停机的时间并减低名字节点元数据丢失的风险。但是，第二名字节点不支持名字节点的故障白动恢复，名字节点失效处理需要人工干预。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5089148.html，如需转载请自行联系原作者

2017-11-13

一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）

@localhost hadoop]# tar -zxvf hadoop-2.4.1.tar.gz 配置HDFS（hadoop2.0所有的配置文件都在hadoop-2.4.1/etc/hadoop目录下

2017-10-15

一脸懵逼学习基于CentOs的Hadoop集群安装与配置（三台机器跑集群）

集群完全分布式的安装配置（将下载的hadoop-2.2.0上传到虚拟机并解压至/home/hadoop目录下）： [root@master hadoop]# tar -zxvf hadoop-2.4.1

2017-10-08

一脸懵逼加从入门到绝望学习hadoop之Caused by: java.net.UnknownHostException: master报错

windows下开发hadoop应用程序，hadoop部署在linux环境中，在运行调试时可能会出现无法找到主机，类似异常信息如下： java.net.UnknownHostException: unknown

2017-09-10

《深入理解大数据：大数据处理与编程实践》一一2.4 Hadoop MapReduce程序开发过程

2.4 Hadoop MapReduce程序开发过程 Hadoop MapReduce程序的开发一般是在程序员本地的单机Hadoop系统上进行程序设计与调试，然后上载到Hadoop集群上运行。

2017-07-03

《Spark与Hadoop大数据分析》一一3.6 Spark 资源管理器：Standalone、YARN和Mesos

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.6节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2017-07-02

如果遇到Hadoop集群正常，MapReduce作业运行出现错误，如何来查看作业运行日志（图文详解）

这个时候我们可以进入logs下的userlogs 备注：userlogs目录下有很多个以往运行的作业，我选择最新的最大编号的作业，就是我们当前运行作业的日志。然后找到stderr stdout syslog文件，stderr为作业错误日志，stdout作业输出日志，syslog为系统日志本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/7643664.html，如需转载请自行联系原作者

2017-06-24

《深入理解Spark:核心思想与源码分析》——3.5节Hadoop相关配置及Executor环境变量

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第3章，第3.5节Hadoop相关配置及Executor环境变量，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看 3.5

2017-05-01

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一1.3 数据挖掘和商业智能

本节书摘来异步社区《Hadoop海量数据处理：技术详解与项目实战（第2版）》一书中的第1章，第1.3节，作者：范东来责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2017-05-01

【Spark Summit EU 2016】沃森媒体分析系统：从单租户Hadoop到3000租户Spark的架构演进

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲，主要介绍了IBM公司的沃森媒体分析系统，介绍了该系统之前针对于单租户的架构，所需面对的多租户挑战和面对该挑战产生出的新系统架构。在讲义的最后Ruben Pulido和Behar Veliqi总结了从沃森媒体分析系统架构演变过程中所获取的经验，新的发展途径可能会基于Spark、Kafka和Zookeeper，并将具有健壮性的特点，能够满足延迟和吞吐量的需求，并且能够支持更多的分析。

2017-02-11

Hadoop2.7实战v1.0之Hive-2.0.0的Hiveserver2服务和beeline远程调试

=true -Dhadoop.log.dir=/hadoop/hadoop-2.7.2/logs -Dhadoop.log.file=hadoop.log -Dhadoop.home.dir=/hadoop

2016-06-18

完全分布模式hadoop集群安装配置之二添加新节点组成分布式集群

mkdir /home/hadoop/.ssh scp hadoop@namenode:/home/hadoop/.ssh/* /home/hadoop/.ssh/ 这就拷贝过来了。

2012-03-10

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

精选列表

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一第2章 环境准备

【干货】Apache Hadoop 2.8 完全分布式集群搭建超详细过程，实现NameNode HA、ResourceManager HA高...

Hadoop 容错之1.X的单点故障 到 2.X的HA和HDFS Federation

记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决

Hadoop2.7实战v1.0之动态添加DataNode和NodeManager节点(不修改dfs.replication)

Hadoop2.7实战v1.0之添加DataNode节点后,更改文件复制策略dfs.replication

专访阿里王峰：Hadoop生态下一代计算引擎-streaming和batch的统一

Hadoop大数据平台实战(05)：深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8...

Hadoop HDFS概念学习系列之名字节点和第二名字节点（十三）

一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）

一脸懵逼学习基于CentOs的Hadoop集群安装与配置（三台机器跑集群）

一脸懵逼加从入门到绝望学习hadoop之Caused by: java.net.UnknownHostException: master报错

《深入理解大数据：大数据处理与编程实践》一一2.4 Hadoop MapReduce程序开发过程

《Spark与Hadoop大数据分析》一一3.6 Spark 资源管理器：Standalone、YARN和Mesos

如果遇到Hadoop集群正常，MapReduce作业运行出现错误，如何来查看作业运行日志（图文详解）

《深入理解Spark:核心思想与源码分析》——3.5节Hadoop相关配置及Executor环境变量

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一1.3 数据挖掘和商业智能

【Spark Summit EU 2016】沃森媒体分析系统：从单租户Hadoop到3000租户Spark的架构演进

Hadoop2.7实战v1.0之Hive-2.0.0的Hiveserver2服务和beeline远程调试

完全分布模式hadoop集群安装配置之二 添加新节点组成分布式集群

资源下载

Spring

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一第2章环境准备

Hadoop 容错之1.X的单点故障到 2.X的HA和HDFS Federation

完全分布模式hadoop集群安装配置之二添加新节点组成分布式集群