搜索[hadoop]结果-低调大师优秀个人博客

精选列表

搜索[hadoop]，共8437篇文章

大数据Hadoop最新版实战Linux Ubuntu 16.04安装与运行测试例子

大数据Hadoop运行环境，依赖于Java JDK，核心的大数据框架基于Java开发的，目前互联网公司、电商、医疗、银行、医院等都有大数据应用，开源Hadoop生态统治了大数据领域，基本没有对手。

2019-03-04

[雪峰磁针石博客]大数据Hadoop工具python教程２-python访问HDFS

https://pypi.org/project/hdfs3 已经不维护PyArrowhttps://pypi.org/project/hdfs/https://pypi.org/project/snakebite/ python2中比较好，对python3支持不好。 hdfs和PyArrow比较常用，这里以hdfs为例：快速入门 from hdfs import InsecureClient client = InsecureClient('http://localhost:50070', user='hduser_') fs_folders_list = client.list("/") print(fs_folders_list) with client.read('/user/hduser/input.txt', enco

2019-01-28

10小时大数据入门实战(七)- Hadoop 分布式环境搭建

1 环境介绍

2018-06-26

Hadoop组件启动的三种方式及配置SSH无密码登入

2、拷贝公钥至authorized_keys文件 $ ssh-copy-id hadoop-senior.ibeifeng.com

2018-02-04

Hadoop HBase概念学习系列之HBase里的时间戳（二十六）

HBase集群要求每个节点的时间必须同步。HBase对于节点的时间扭曲（time skew）容忍度很低（这和HDFS是不一样的）。这主要是因为HBase需要使用系统时间来产生时间戳。如果系统时间不同步的话，那么每个节点产生的时间戳差异就会比较大，这就违背了时间戳设计的初衷。 HBase对于节点间的时间扭曲的容忍度在秒级，即如果HBase发现节点间的时间差异已经有几十秒时会拒绝启动。节点间时间同步的方法是建立NTP服务器，然后让所有的节点和NTP服务器同步。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/6154828.html，如需转载请自行联系原作者

2017-11-27

Hadoop HDFS概念学习系列之熟练掌握HDFS的Shell访问（十五）

调用文件系统(FS)Shell命令应使用$HADOOP_HOME/bin/hadoop fs ***的形式！！！所有的FS Shell命令使用URI路径作为参数。

2017-11-21

Hadoop MapReduce概念学习系列之如何进行DeBug调试（二十五）

改动地方2：改为， 2 、开启hadoop集群启动和链接 3 、在Temperature.java里的Map函数中打入断点，以及在Reducer函数中打入断点。

2017-11-21

Hadoop MapReduce编程 API入门系列之Crime数据分析（二十五）（未完）

; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path

2017-11-20

Hadoop MapReduce编程 API入门系列之统计学生成绩版本2（十八）

; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path

2017-11-20

hadoop-2.7.1+zookeeper-3.4.8+hbase-1.2.1+apache-hive-2.0.0完全分布式集群

用户 Hadoop为了安装使用普通用户登录 useradd hadoop echo "hadoop"|passwd --stdin hadoop 增加权限： visudo hadoop ALL=(ALL

2017-11-16

Hadoop之Hive本地与远程mysql数据库管理模式安装手册

Linux ISO：CentOS-6.0-i386-bin-DVD.iso 32位 JDK version："1.6.0_25-ea" Hadoop software version：hadoop-0.20.205.0

2017-11-15

win7下安装hadoop 2.6.0 的eclipse插件并编写运行WordCount程序

win7 64位下安装hadoop的eclipse插件并编写运行WordCount程序环境： win7 64位 hadoop-2.6.0 步骤： 1、下载hadoop-eclipse-plugin-2.6.0

2017-11-15

Hadoop MapReduce概念学习系列之在MapReduce编程时，三大接口抉择（十六）

在编写MapReduce程序方面，可以直接调用Java API接口，也可以通过Pipes接口使用C/C++编写并行程序，还可以调用Streaming接口使用任何可以操作标准输入/输出的计算机编程语言来编写MapReduce应用程序。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5453350.html，如需转载请自行联系原作者

2017-11-14

Hadoop HDFS概念学习系列之HDFS的一致性（十八）

对于一致性，可以分为从客户端和服务端两个不同的视角。从客户端来看，一致性主要指的是多并发访问时更新过的数据如何获取的问题。从服务端来看，则是更新如何复制分布到整个系统，以保证数据最终一致。一致性是因为有并发读写才有的问题，因此在理解一致性的问题时，一定要注意结合考虑并发读写的场景。从客户端角度，多进程并发访问时，更新过的数据在不同进程如何获取的不同策略，决定了不同的一致性。对于关系型数据库，要求更新过的数据能被后续的访问都能看到，这是强一致性。如果能容忍后续的部分或者全部访问不到，则是弱一致性。如果经过一段时间后要求能访问到更新后的数据，则是最终一致性从服务端角度，如何尽快将更新后的数据分布到整个系统，降低达到最终一致性的时间窗口，是提高系统的可用度和用户体验非常重要的方面。对于分布式数据系统： N — 数据复制的份数 W — 更新数据时需要保证写完成的节点数 R — 读取数据的时候需要读取的节点数如果W+R>N，写的节点和读的节点重叠，则是强一致性。例如对于典型的一主一备同步复制的关系型数据库，N=2,W=2,R=1，则不管读的是主库还是备库的数据，都是一致的。如果W+R<=N，则是弱一致性。例如对于一主一备异步复制的关系型数据库，N=2,W=1,R=1，则如果读的是备库，就可能无法读取主库已经更新过的数据，所以是弱一致性。对于分布式系统，为了保证高可用性，一般设置N>=3。不同的N,W,R组合，是在可用性和一致性之间取一个平衡，以适应不同的应用场景。如果N=W,R=1，任何一个写节点失效，都会导致写失败，因此可用性会降低，但是由于数据分布的N个节点是同步写入的，因此可以保证强一致性。如果N=R,W=1，只需要一个节点写入成功即可，写性能和可用性都比较高。但是读取其他节点的进程可能不能获取更新后的数据，因此是弱一致性。这种情况下，如果W<(N+1)/2，并且写入的节点不重叠的话，则会存在写冲突文件系统的一致性模型描述了文件读/写的可见性。 HDFS牺牲了一些POSIX的需求来补偿性能，所以有些操作可能会和传统的文件系统不同。当创建一个文件时，它在文件系统的命名空间中是可见的，代码如下: Path p = new Path("p"); fs.create(p); assertThat(fs.exists(p),is(true)); 但是对这个文件的任何写操作不保证是可见的，即使在数据流已经刷新的情况下，文件的长度很长时间也会显示为0 ： Path p = new Path("p"); OutputStream out = fs.create(p); out.write("content".getBytes("UTF-8")); out.flush(); assertThat(fs.getFileStatus(p),getLen(),is(0L)); 一旦一个数据块写人成功，那么大家提出的新请求就可以看到这个块，而对当前写入的块，大家是看不见的。HDFS提供了使所有缓存和DataNode之间的数据强制同步的方法，这个方法是FSDataOutputStream中的sync()函数。当sync()函数返回成功时，HDFS就可以保证此时写入的文件数据是一致的并且对于所有新的用户都是可见的。即使HDFS客户端之间发生冲突，也会导致数据丢失，代码如下: Path p = new Path("p"); FSDataOutputStream out = fs.create(p); out.write("content".getBytes("UTF-8")); out.flush(); out.sync(); assertThat(fs.getFileStatus(p),getLen(),is(((long) "content" .length())); 这个操作类似于UNIX系统中的fsync系统调用，为一个文件描述符提交缓存数据，利用Java API写入本地数据，这样就可以保证看到刷新流并且同步之后的数据，代码如下: FileOutputStream out = new FileOutStream(localFile); out.write("content".getBytes("UTF-8")); out.flush(); // flush to operatig system out.getFD().sync(); // sync to disk assertThat(fs.getFileStatus(p),getLen(),is(((long) "content" .length())); 在HDFS中关闭一个文件也隐式地执行了sync()函数，代码如下: Path p = new Path("p"); OutputStream out = fs.create(p); out.write("content".getBytes("UTF-8")); out.close(); assertThat(fs.getFileStatus(p),getLen(),is(((long) "content" .length())); 下面来了解一致性模型对应用设计的重要性。文件系统的一致性与设计应用程序的方法有关。如果不调用sync()，那么需要做好因客户端或者系统发生故障而丢失部分数据做好准备。对大多数应用程序来说，这是不可接受的，所以需要在合适的地方调用sync()，比如在写入一定量的数据之后。尽管sync()被设计用来最大限度地减少HDFS的负担，但是它仍然有不可忽视的开销，所以需要在数据健壮性和吞吐最之间做好权衡，其中一个较好的参考平衡点就是:通过测试应用程序来选择不同sync()频率间的最佳平衡点。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5140724.html，如需转载请自行联系原作者

2017-11-14

Hadoop HDFS编程 API入门系列之路径过滤上传多个文件到HDFS（二）

; 8 import org.apache.hadoop.fs.FSDataInputStream; 9 import org.apache.hadoop.fs.FSDataOutputStream;

2017-11-14

Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）

由于数据的不均衡原因，导致数据分布不均匀，造成数据大量的集中到一点，造成数据热点 Hadoop框架的特性不怕数据大，怕数据倾斜 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表

2017-11-14

Hadoop HDFS概念学习系列之NameNode和Secondary NameNode通信模型（十一）

NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件edits。当一个NameNode启动时，它首先从一个映像文件(fsimage)中读取HDFS的状态，接着执行日志文件中的编辑操作。然后将新的HDFS状态写人fsimage中，井使用个空的edits文件开始正常操作。因为NameNode只有在启动阶段才合并fsimage和edits，久而久之日志文件可能会变得非常庞大，特别是对于大型的集群。日志文件太大的另一个副作用是下一次NameNode启动会很长世间，NameNode和Secondary NameNode之间的通信示意图如图所示。如上图所示。NameNode和Secondary NameNode间数据的通信使用的是HTTP协议,Secondary NameNode定期合并fsimage和edits日志，将edits日志文件大小控制在一个限度下。因为内存需求和NameNode在一个数量级上、所以通常Secondary NameNode和NameNode运行在不同的机器上。Secondary NameNode通过bin/start-dfs.sh在conf/masters中指定的节点上启动。 Secondary NameNode的检查点进程启动，是由以下两个配置参数控制的: （1）fs.checkpoint.period指定连续两次检查点的最大时间间隔，默认值是1小时。（2）fs.checkpoint.size定义了日志文件的最大值，一旦超过这个值会导致强制执行检查点(即使没到检查点的最大时问间隔)，默认值是64MB。 Secondary NameNode保存最新检查点的目录与NameNode的目录结构相同。所以NameNode 可以在需要的时候读取Secondary NameNode上的检查点镜像。如果NameNode上除了最新的检查点以外，所有的其他历史镜像和edits文件都丢失了，NameNode可以引入这个最新的检查点。以下操作可以实现这个功能: 1) 在配置参数dfs.name.dir指定的位置建立一个空文件夹。 2) 把检查点日录的位置赋值给配置参数fs.checkpoint.dir。 3) 启动NameNode，加上-importCheckpoint。 NameNode会从fs.checkpoint.dir目录读取检查点，并把它保存在dfs.name.dir日录下。如果dfs.name.dir目录下有合法的镜像文件，NameNode会启动失败。NameNode会检查fs.checkpoint.dir 目录下镜像文件的一致性，但是不会去改动它。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5081598.html，如需转载请自行联系原作者

2017-11-14

Hadoop HDFS编程 API入门系列之从本地上传文件到HDFS（一）

; 9 import org.apache.hadoop.fs.FileSystem; 10 import org.apache.hadoop.fs.Path; 11 12 /** 13 * 14 *

2017-11-13

Hadoop Hive概念学习系列之hive里的用户定义函数UDF（十七）

想要开发UDF程序，需要继承org.apache.hadoop.ql.exec.UDF类，并重载evaluate方法。

2017-11-13

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

Apache Hadoop Apache Hadoop是一种专用于批处理的处理框架。Hadoop是首个在开源社区获得极大关注的大数据框架。

2017-11-09

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

精选列表

大数据Hadoop最新版实战Linux Ubuntu 16.04安装与运行测试例子

[雪峰磁针石博客]大数据Hadoop工具python教程２-python访问HDFS

10小时大数据入门实战(七)- Hadoop 分布式环境搭建

Hadoop组件启动的三种方式及配置SSH无密码登入

Hadoop HBase概念学习系列之HBase里的时间戳（二十六）

Hadoop HDFS概念学习系列之熟练掌握HDFS的Shell访问（十五）

Hadoop MapReduce概念学习系列之如何进行DeBug调试（二十五）

Hadoop MapReduce编程 API入门系列之Crime数据分析（二十五）（未完）

Hadoop MapReduce编程 API入门系列之统计学生成绩版本2（十八）

hadoop-2.7.1+zookeeper-3.4.8+hbase-1.2.1+apache-hive-2.0.0完全分布式集群

Hadoop之Hive本地与远程mysql数据库管理模式安装手册

win7下安装hadoop 2.6.0 的eclipse插件并编写运行WordCount程序

Hadoop MapReduce概念学习系列之在MapReduce编程时，三大接口抉择（十六）

Hadoop HDFS概念学习系列之HDFS的一致性（十八）

Hadoop HDFS编程 API入门系列之路径过滤上传多个文件到HDFS（二）

Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）

Hadoop HDFS概念学习系列之NameNode和Secondary NameNode通信模型（十一）

Hadoop HDFS编程 API入门系列之从本地上传文件到HDFS（一）

Hadoop Hive概念学习系列之hive里的用户定义函数UDF（十七）

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

资源下载

Mario

腾讯云软件源

Rocky Linux

Sublime Text

欢迎您来访！