首页 文章 精选 留言 我的

精选列表

搜索[数据脱敏],共10000篇文章
优秀的个人博客,低调大师

好程序员大数据教程Hadoop全分布安装(非HA)

机器名称 启动服务 linux11 namenode secondrynamenode datanode linux12 datanode linux13 datanode 第一步:更改主机名,临时修改+永久修改 临时修改:hostname linux11 永久修改: vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=linux11 临时修改:hostname linux12 永久修改: vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=linux11 临时修改:hostname linux13 永久修改: vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=linux13 第二步:配置ip地址 1.三台机器关闭NetworkManager服务 service NetworkManager stop 2.三台机器禁止开机启动NetworkManager服务 chkconfig NetworkManager off 3. vi /etc/sysconfig/network-scripts/ifcfg-eth0 三台机器依次配置成这样 linux11: ONBOOT=yes BOOTPROTO=static IPADDR=192.168.91.11 DNS1=8.8.8.8 GATEWAY=192.168.91.1 NETMASK=255.255.255.0 linux12: ONBOOT=yes BOOTPROTO=static IPADDR=192.168.91.12 DNS1=8.8.8.8 GATEWAY=192.168.91.1 NETMASK=255.255.255.0 linux13: ONBOOT=yes BOOTPROTO=static IPADDR=192.168.91.13 DNS1=8.8.8.8 GATEWAY=192.168.91.1 NETMASK=255.255.255.0 最终结果: 192.168.91.11 linux11 192.168.91.12 linux12 192.168.91.13 linux13 3.三台机器关闭防火墙 service iptables stop 4.三台机器设置禁止开机启动防火墙 chkconfig iptables off 5.三台机器关闭防火墙 service iptables status 显示iptables: Firewall is not running.说明防火墙关闭成功 6.三台机器重启网卡service network restart 第三步配置主机映射 使用命令:vi /etc/hosts 三台机器都改成这样 192.168.91.11 linux11 192.168.91.12 linux12 192.168.91.13 linux13 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 测试: 在linux11上 ping linux12 ping linux13 第四步配置免密码登录 linux11: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys linux12: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys linux13: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys 在linux11上 ssh-copy-id linux12 ssh-copy-id linux13 测试:测试结果为linux11可以免密码登录到所有机器。linux12 linux13可以免密码登录本机 例如:在linux11上输入 ssh linux11 第五步安装jdk及hadoop(由于使用root用户操作,为了防止对liunx操作不熟悉的人,误删其他文件。所以没有选择把软件安装在/usr下,而是选择安装在了自己创建的文件目录下) linux11: 1.在根目录下创建bigdata目录 mkdir /bigdata 2.将hadoop安装包 tar -zxvf /bigdata/hadoop-2.7.1.tar.gz -C /bigdata/ 删除hadoop安装包 rm -rf /bigdata/hadoop-2.7.1.tar.gz 3.jdk安装包解压 tar -zxvf /bigdata/jdk-8u151-linux-x64.gz -C /bigdata/ 删除jdk安装包 rm -rf /bigdata/jdk-8u151-linux-x64.gz 修改jdk目录的名字为jdk1.8 mv /bigdata/jdk1.8.0_151/ /bigdata/jdk1.8 4.配置环境变量 vi /etc/profile 在文件末尾加入如下配置 export JAVA_HOME=/bigdata/jdk1.8 export HADOOP_HOME=/bigdata/hadoop-2.7.1 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin: 第六步:hadoop的配置 1.hadoop-env.sh的配置 使用命令 vi /bigdata/hadoop-2.7.1/etc/hadoop/hadoop-env.sh 第25行export JAVA_HOME=改成下面的样子 export JAVA_HOME=/bigdata/jdk1.8 2.core-site.xml 的配置 使用命令 vi /bigdata/hadoop-2.7.1/etc/hadoop/core-site.xml 配置成这样: 3.hdfs-site.xml的配置 使用命令 vi /bigdata/hadoop-2.7.1/etc/hadoop/hdfs-site.xml 配置成这样: 4.slaves文件配置 使用命令 vi /bigdata/hadoop-2.7.1/etc/hadoop/slaves 配置成这样 linux11 linux12 linux13 第七步:远程拷贝 1.将bigdata文件分发给linux12 linux13 scp -r /bigdata linux12:/ scp -r /bigdata linux13:/ 2.将/etc/profile文件分发给linux12 linux13 scp /etc/profile linux12:/etc scp /etc/profile linux13:/etc 3.三台机器刷新环境变量 source /etc/profile 第八步:格式化namenode 在namenode节点linux11上输入命令 hdfs namenode -format 格式化完成后在linux11上启动集群 start-dfs.sh 第九步:验证集群是否启动成功 1.在浏览器上输入192.168.91.11:50070如果页面能打开显示有3个活跃节点说明成功 2.linux11上输入jps 能看到namenode secondrynamenode datanode三个服务 3.linux12上输入jps 能看到datanode 4.linux12上输入jps 能看到datanode 5.上传个文件至集群hdfs dfs -put /bigdata/jdk1.8 / 6.查看web页面是否存在这个文件

优秀的个人博客,低调大师

[雪峰磁针石博客]大数据Hadoop工具python教程4-mrjob

mrjob是由Yelp创建的Python MapReduce库,它封装了Hadoop流,允许MapReduce应用程序以更加Pythonic的方式编写。 mrjob用纯Python编写多步MapReduce作业。使用mrjob编写的MapReduce作业可以在本地测试,在Hadoop集群上运行,或使用Amazon Elastic MapReduce(EMR)在云中运行。 使用mrjob编写MapReduce应用程序有许多好处: mrjob目前是非常活跃的框架,每周都有多次提交。 mrjob拥有丰富的文档。 可以在不安装Hadoop的情况下执行和测试mrjob应用程序,在部署到Hadoop集群之前就可开发和测试。 mrjob允许MapReduce应用程序在单个类中编写,而不是为mapper和reducer编写单独的程序。 虽然mrjob是很好的解决方案,但它确实有它的缺点。 mrjob是简化的,因此它不会提供与其他API提供的Hadoop相同级别的访问权限。 mrjob不使用typedbytes,因此其他库可能更快。 安装 $ pip install mrjob 参考资料 python测试开发项目实战-目录 python工具书籍下载-持续更新 python 3.7极速入门教程 - 目录 原文地址 本文涉及的python测试开发库 谢谢点赞! [本文相关海量书籍下载](https://github.com/china-testing/python-api-tesing/blob/master/books.md 单词统计 #!/usr/bin/env python # 项目实战讨论QQ群630011153 144081101 # https://github.com/china-testing/python-api-tesing from mrjob.job import MRJob class MRWordCount(MRJob): def mapper(self, _, line): for word in line.split(): yield(word, 1) def reducer(self, word, counts): yield(word, sum(counts)) if __name__ == '__main__': MRWordCount.run() 执行结果 $ python word_count.py /home/hduser_/input2.txt No configs found; falling back on auto-configuration No configs specified for inline runner Running step 1 of 1... Creating temp directory /tmp/word_count.hduser_.20190122.035729.128110 job output is in /tmp/word_count.hduser_.20190122.035729.128110/output Streaming final output from /tmp/word_count.hduser_.20190122.035729.128110/output... "nimble" 1 "be" 2 "quick" 1 "jack" 2 Removing temp directory /tmp/word_count.hduser_.20190122.035729.128110... 比较重要的方法有:mapper()、combiner()和reducer()。 多个输入文件: $ python mr_job.py input1.txt input2.txt input3.txt 默认情况下,mrjob在本地运行,允许在提交到Hadoop集群之前开发和调试代码。要更改作业的运行方式,请指定-r/--runner选项。 $ python mr_job.py -r hadoop hdfs://input/input.txt $ python mr_job.py -r emr s3://input-bucket/input.txt

资源下载

更多资源
腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册