首页 文章 精选 留言 我的

精选列表

搜索[自动装配],共10000篇文章
优秀的个人博客,低调大师

Rsync企业实战之自动异地备份

认真的测试过网上的大多数文章和版本,真正能一次性测试通过的文章太少了,需要反复的推敲,反复的查阅资料,才能真正的测试成功,所以,在此背景下,总结了Rsync,加上自己的理解分享出来; 1、 原理篇 Rsync,故名思议,是一个远程数据同步工具,可以镜像整个目录树和文件系统,也可以保持源文件的权限,时间和软硬链接,可以优化数据,文件重复数据的删除,也可以在LAN/WAN之间快速的同步多台主机的数据,这主要得益于Rsync的压缩和Rsync的核心算法,其算法,是本地和远程两台主机之间的文件达到同步并保持一致,并且只传送两个文件的不同部分,而不是整个数据进行传送,所以,速度非常快; 一个Rsync server能够同时备份多个客户端数据,也可以一个客户端备份多个Rsync server的数据; Rsync 支持搭配scp,ssh和daemon模式,默认端口是873,当第一次连接的时候,会对数据进行完整备份,之后的所有备份,都是进行增量备份,只备份又变化的数据; Rsync只支持单向备份,不支持双向,如果需要双向同步的,可以使用Unison;如果需要实时同步的,可以结合Rsync+inotify; Rsync服务以只读方式提供要备份的数据,避免破坏生产环境的数据; 在这里,有必要对Rsync的核心算法,进行讲解: 假定在名为 α 和 β 的两台计算机之间同步相似的文件 A 与 B,其中 α 对文件A拥有访问权,β 对文件 B 拥有访问权。并且假定主机 α 与 β 之间的网络带宽很小。那么 Rsync 算法将通过下面的五个步骤来完成: β 将文件 B 分割成一组不重叠的固定大小为 S 字节的数据块。最后一块可能会比 S 小。 β 对每一个分割好的数据块执行两种校验:一种是32位的滚动弱校验,另一种是128位的 MD4 强校验。 β 将这些校验结果发给 α。 α 通过搜索文件 A 的所有大小为 S 的数据块(偏移量可以任选,不一定非要是 S 的倍数),来寻找与文件B 的某一块有着相同的弱校验码和强校验码的数据块。这项工作可以借助滚动校验的特性很快完成。 α 发给 β 一串指令来生成文件 A 在 β 上的备份。这里的每一条指令要么是对文件 B 经拥有某一个数据块而不须重传的证明,要么是一个数据块,这个数据块肯定是没有与文件 B 的任何一个数据块匹配上的。 Rsync适用于linux、solaris和bsd,在windows平台下,有cwRsync。 本文,将以Linux的Rsync和以window的cwRsync为例讲解。 2、 Rsync服务端 2.1、 安装 源码安装 下载rsync服务端程序, tar zxvf rsync-2.6.9.tar.gz cd rsync-2.6.9 ./configure --prefix=/usr/local/rsync make make install rpm安装 yum install rsync 本文以yum来安装 2.2、 服务器运行模式 模式选择 对于负载比较重的,选择独立服务启动 对于负载比较轻的,选择以xinet.d启动,选择此模式,记得要安装xinet.d (yum install xinet.d) 独立运行模式 /usr/bin/rsync --daemon --config=/etc/rsyncd.conf (本例选择此方法) 如果需要系统开机启动,可以把上面命令加入到/etc/rc.local文件中。 2.3、 服务器配置 创建配置文件和口令文件 touch /etc/rsyncd.conf 主要配置文件 touch /etc/rsync.pas 口令文件,此文件需要注意客户端和服务器端的格式,后续会讲解 关于配置文件rsyncd.conf讲解 Rsync的配置文件,分为两个部分,全局配置和模块配置, #全局设置 uid = root 指定模块以root用户来传输文件,如果匿名用户的话,这里填写nobody gid = root 指定模块以root用户组来传输文件,如果匿名传输的话,这里填写nobody use chroot = yes 设置为YES,表示在传输文件之前,定位到根目录下,即PATH指定的目录,这样做,主要是出于安全考虑 pid file = /var/run/rsyncd.pid Rsync守护进程把其PID写入的文件 lock file = /var/run/rsync.lock 指定支持max connections的锁文件 log file = /var/log/rsyncd.log 指定Rsync守护进程产生的日志文件,而不是传送给syslog #模块设置 [Jindie] 模块名称,后续上传下载文件配置时,直接使用此名称名来指定 path = /sda1/JDdatabase 指定此模块的根目录,即文件上传下载都是在此目录下进行 ignore errors 指定在 rsync 服务器上运行 delete 操作时是否忽略 I/O 错误 read only = false 指定是否允许上传,false代表允许上传。 write only = false 指定是否允许下载,false代表允许下载。 list = true 指定当客户请求列出可以使用的模块,该模块是否被列出。如果false,可以创建隐藏的模块。 hosts allow = 192.168.1.65 指定哪些客户端可以访问连接此模块,可以指定单个IP,整个网段,比如此例为单个IP hosts deny = 0.0.0.0/0 指定哪些客户端不允许连接此模块,此例为0.0.0.0/0网段,代表整个网络 通常表示客户端表示方式,有如下: 单个IP:192.168.1.65 网段IP:192.168.1.0/24 可解析的主机地址:www.baidu.com 域内主机:*.wine9.com 所有主机:* 多个列表项,要用空格隔开; auth users = xy 指定认证用户名,通常由空格或者逗号分隔用户名列表,只有这些用户可以连接此模块,用户名和密码,以明文形式,保存在口令文件中 syslog facility = local5 指定日志等级,一般指发送给rsyslog的日志等级; secrets file = /etc/rsync.pas 指定Rsync认证口令文件,只有配置了auth users,此配置才生效,这里要注意客户端和服 务器端的配置格式。 ignore nonreadable 指定 rysnc 服务器完全忽略那些用户没有访问权限的文件,这对于在需要备份的目录中有些不应该被备份者获取的文件时非常有意义 timeout 600 设置客户端连接超时时间,确保服务器不会永远等待一个奔溃的客户端。 dont compress=*.gz 指定哪些文件在传输之前,不需要进行压缩的文件。 max connections = 4 指定此模块最大的并发连接数为4,超过的告知随后再试 exclude指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 exclude 列表中。这等同于在客户端命令中使用 –exclude 来指定模式。 Exclude from指定一个包含 exclude 规则定义的文件名,服务器从该文件中读取 exclude 列表定义 include指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 include 列表中。这等同于在客户端命令中使用 –include 来指定模式 Include from指定一个包含 include 规则定义的文件名,服务器从该文件中读取 include 列表定义 2.4、 建立Rsync口令文件 创建口令文件 touch /etc/rsync.pas #口令文件,保存Rsync用户和密码验证信息,不需要是系统账号; vi /etc/rsync.pas xy:abc123 #格式为 用户名:口令,此账号不用是系统账号 注意与后面的客户端口令文件的格式进行比较,相较两者不同点,这一点,有很多童鞋容易弄错了,重要的事情说三遍,注意格式,注意格式,注意格式。 2.5、 口令文件权限 口令文件,需要设置口令文件权限,这一步同样非常重要,Rsync对权限的要求还是比较敏感的。 #chown root:root /etc/rsync.pas #root:root 指的是当前启动此服务的用户,并设置为属主 #chmod 600 /etc/rsync.pas #指定启动此Rsync服务的用户的权限为只读权限,也就是前面提到的属主的权限。 3、 Rsync客户端 客户端本例,选择windows的cwrsync工具,安装不用多说。 3.1、 创建口令文件 新建rsync.pas文件,添加内如如下: 因为我使用的用户名是xy,此设置的密码,必须跟服务器端rsync.pas口令文件中设置的密码一样,比如本例口令为abc123; 那么,本例中设置为: abc123 3.2、 口令文件权限 windows口令文件的权限一定要设置正确,否则验证无法通过,应将口令文件c:\rsync.pas的权限加入系统登录的账号读取权限以及设置其为该文件的所有者(这里跟服务器端有点不同,正常来说,无论windows还是liunx,服务器端的这个用户名,应该是启动Rsync服务的用户名,但是对于windows客户端来说,一般都是系统登录账号) 定位到cwRsync客户端安装目录,C:\Program Files (x86)\cwRsync\bin chmod 600 /cygdrive/c/rsync.pas chown administrator /cygdrive/c/rsync.pas #如果没有chown.exe文件,可以从服务器端的安装目录的bin目录下直接复制过来就可以使用, 注:Rsync对路径的书写格式,与windows不同,它是遵循,postfix书写格式, 3.3、 同步文件 Rsync同步的六种格式 当Rsync已经做好服务器端和客户端的配置之后,接下来就是通过Rsync命令,像服务器发起命令请求,来完成文件的同步操作,Rsync的功能非常强大,提供了六种格式,来支持Rsync的六种工作方式; rsync [OPTION]... SRC DEST rsync [OPTION]... SRC [USER@]HOST:DEST rsync [OPTION]... [USER@]HOST:SRC DEST rsync [OPTION]... [USER@]HOST::SRC DEST rsync [OPTION]... SRC [USER@]HOST::DEST rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST] 对于以上六种命令格式, 1) rsync [OPTION]... SRC DEST 拷贝本地文件,当SRC和DEST路径信息都不包含有单个冒号“:“,就启动此工作模式, rsync.exe –vzrtopg /data /backup 2) rsync [OPTION]... SRC [USER@]HOST:DEST 使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器。当DST路径地址包含单个冒号":"分隔符时启动该模式。如:rsync -avz *.c foo:src 3) rsync [OPTION]... [USER@]HOST:SRC DEST 使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器。当SRC地址路径包含单个冒号":"分隔符时启动该模式。如:rsync -avz foo:src/bar /data 4) rsync [OPTION]... [USER@]HOST::SRC DEST 从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含"::"分隔符时启动该模式。如:rsync -av root@172.16.78.192::www /databack,其中www是在rsync配置文件中,指定的模块的名称。 5) rsync [OPTION]... SRC [USER@]HOST::DEST 从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含"::"分隔符时启动该模式。如:rsync -av /databack root@172.16.78.192::www,其中www是在rsync配置文件中,指定的模块的名称。 6) rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST] 列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信息即可。如:rsync -v rsync://172.16.78.192/www 上传同步文件 rsync.exe -vzrtopg --progress --delete /cygdrive/c/test/*.txt xy@192.168.31.13::Jindie --password-file=/cygdrive/c/rsync.pas 解释: rsync.exe 即rsync命令 vzrtopg 指定参数,传输的详细信息; --delete 删除哪些在DST中存在,而SRC中没有存在的文件或者目录 /cygdrive/c/test/*.txt 注意这里的格式,不能使用windows的格式,必须使用POSTFIX标准格式; xy@192.168.31.13::Jindie xy是有权访问服务器的用户名,192.168.31.13是服务器地址,Jindie是服务器端配置文件中指定的模块,这个模块中指定用户信息和同步路径;服务器地址和模块之间,用两个冒号隔开。 --password-file=/cygdrive/c/rsync.pas 口令文件,当中含有xy账号的密码,要与服务器端配置文件rsyncd.conf中指定的口令文件中设置的密码相同。 下载同步文件 rsync.exe -vzrtopg --progress --delete xy@192.168.31.13::Jindie /cygdrive/c/test --password-file=/cygdrive/c/rsync.pas 通常,因为上传和下载的方向性不同,直接调换源文件路径和目标地址的路径,即可。 4、 定时同步备份 把上面的命令写入到批处理器文件中,比如test.bat,通过任务计划来实现定时备份。 C:\Program Files (x86)\cwRsync\bin rsync.exe -vzrtopg --progress --delete /cygdrive/c/test/*.txt xy@192.168.31.13::Jindie --password-file=/cygdrive/c/rsync.pas 复制上面命令,保存到test.bat文件中, 开始 -- 所有程序-- 附件--系统工具--任务计划程序 展开 任务计划程序库--Microsoft,右击 “创建基本任务“ 创建基本任务向导,输入 ”名称” 点击 “下一步” 任务触发器,根据实际需要,设置每日,每周,每月同步,这里,我选择每日备份,可以减少带宽压力。 设置,每日启动的时间,这里设置每日,凌晨1点,点击 “下一步” 选择 “启动程序“ 浏览,选择 脚本文件 点击 ”完成 “ 到此,部署,已经全部完成。

优秀的个人博客,低调大师

完全分布模式hadoop集群安装配置之二 添加新节点组成分布式集群

前文说到如何搭建集群中第一个节点,这篇将说到如何向集群添加节点。这篇是基于前文的,没有看过前文的可以参考此链接:http://www.cnblogs.com/mikelij/archive/2012/03/06/2380937.html 2 向集群添加节点 前文已经建立了一个节点的hadoop集群。现在要做的添加节点。安装JDK, 创建hadoop用户等见前文。这里就不重复了。 2.1 检查主机名,修改/etc/hostname, /etc/hosts 新节点需要在这个集群里叫一个名字,给此节点命名,比如slavenode1, slavenode2, etc.集群里新加入的服务器都需要在/etc/hostname中改名,将规定的服务器名放在/etc/hostname文件中。然后将已有服务器上的/etc/hosts拷贝过来。再加上此新节点的主机名。然后再复制到群里每一个服务器中。即所有集群中服务器的/etc/hosts文件要一样。 2.2 配置SSH Key以便hadoop用户无密码登录集群 与前文不同的是,此处只需要将之前的节点产生的ssh key等拷贝过来就可以了。用hadoop用户登录, sudo apt-get install ssh 安装完ssh就可以从已有的服务器上拷贝ssh key了。 mkdir /home/hadoop/.ssh scp hadoop@namenode:/home/hadoop/.ssh/* /home/hadoop/.ssh/ 这就拷贝过来了。之所以要从已有服务器上拷贝ssh key,是因为如果两个服务器的ssh key不一致,则第一次连服务器时,还是需要密码的。这里的需求是hadoop用户连任何一个集群中的服务器都不需要密码,因此需要拷贝已有服务器上的ssh key. 下面需要从此节点用ssh命令连 到已有的所有节点上去。已有的节点只有一个时,假设本节点的主机名是slavenode1, 就ssh namenode, ssh localhost, ssh slavenode1。如果已经有namenode, slavenode1, slavenode2...到slavenode6, 那么就尝试ssh namenode, ssh slavenode1, ssh slavenode2, ..., ssh slavenode6, ssh localhost. 保证这些连接都是不需要密码就可连接的就可以了。另外在换到其他机器上,都ssh 此节点的主机名,如ssh slavenode1s。这样的方法,就可以保证每台机器间都可以用ssh无密码就可以连接。用的用户都是hadoop。 2.3 安装hadoop包 可参考前文的1.5, 这里就不重复了。 2.4 namenode上的hadoop配置 集群里要加入新的节点,可以在namenode服务器上的mapred-site.xml中加入dfs.hosts和mapred.hosts两个元素。即象这样: <property> <name>dfs.hosts</name> <value>/usr/local/hadoop/hadoop-0.20.203.0/conf/slaves</value></property><property> <name>mapred.hosts</name> <value>/usr/local/hadoop/hadoop-0.20.203.0/conf/slaves</value></property> 然后再在/usr/local/hadoop/hadoop-0.20.203.0/conf/slaves文件中写上集群中所有的节点的主机名。一个主机名占一行。如: namenode slavenode1 slavenode2 ... 如果dfs.hosts和mapred.hosts已经加好了,就只需要到slaves中加入一行。 2.5 新加入节点的hadoop配置 集群中所有节点的hadoop配置要全部保持一致。即那些core-site.xml, hdfs-site.xml, mapred-site.xml, masters, slaves可以从已有节点处拷贝过来。包括/etc/environment也可以从已有节点那里拷贝过来。用scp命令,上面已经用过了,再用scp拷贝这些文件过来。 2.6 新加入节点启动 start-dfs.sh start-mapred.sh 2.7 通知namenode和jobtracker有新节点加入 在第一台服务器(namenode兼jobtracker)运行的情况下,到第一台服务器那里, hadoop dfsadmin -refreshNodes 这是通知hdfs有新节点加入 hadoop mradmin -refreshNodes 这是通知jobtracker有新节点加入 2.8 验证集群是否正常工作 还是老办法,用一些常用命令将一些服务器上的本地文件方到服务器上,如: hadoop fs -put testfolder uploadfolder 再拷贝,删除等做一做。 另外验证jobtracker和所有的tasktracker是否正常工作,还是用wordcount示例来运行: hadoop jar hadoop-examples-0.20.203.0.jar wordcount input output 得到大概这样的结果就对了, 即map增长到100%, reduce也增长到100%。 访问http://namenode:50070/可以看到集群里所有的datanode 还有http://namenode:50030/可以看到集群里所有的tasktracker 2.7 启动集群 namenode上运行: start-all.sh slavenode上运行: start-dfs.sh start-mapred.sh 2.8 停止集群 slavenode上运行: stop-mapred.sh stop-dfs.sh namenode上运行: stop-all.sh 2.9 遇到的问题 Too many fetch-failures问题 这次还是遇到了这个问题,和单机时一样的错误信息Too many fetch-failures,略有不同的是reduce不是卡在0%,而是卡在17%那里就不动了。 这次又是到处检查,最后发现是第一台服务器的/etc/hosts文件里少写了一个服务器名字。将这个服务器名字补上以后,这个wordcount示例就可以正常运行了。 所以集群中所有服务器的/etc/hosts, core-site.xml, hdfs-site.xml, mapred-site.xml, masters, slaves,还有ssh key所在.ssh目录等文件和目录都需完全一样。 以上说的是往集群里添加节点,这里说的是添加第二个节点,此过程适用于以后所有新节点的添加。第三个一直到第n个都是按同样的方法来添加。只要重复以上过程就可以了。 本文就说到这里。后文再说一些hadoop集群管理的内容。

资源下载

更多资源
Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册