用Shell写一个日志收集脚本-低调大师

用Shell写一个日志收集脚本

2018-08-01 650

有时候想了想Flume框架的原理，其实也是对文件或者文件夹进行监控，那我自己也可以写一个脚本来简单的实现监控我们想监控的文件，然后对其进行上传。

1. 引入环境变量

#!/bin/bash

#set java env
export JAVA_HOME=/home/fantj/jdk/
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

#set hadoop env
export HADOOP_HOME=/home/fantj/hadoop/
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

2. 声明路径变量

#日志文件存放的目录
log_src_dir=/home/fantj/log/

#待上传文件存放的目录
log_toupload_dir=/home/fantj/toupload/


#日志文件上传到hdfs的根路径
hdfs_root_dir=/data/log/

3. 扫描文件

ls $log_src_dir | while read fileName
do
        if [[ "$fileName" == access.log ]]; then
                date=`date +%Y_%m_%d_%H_%M_%S`
                #将文件移动到待上传目录并重命名
                #打印信息
                echo "moving $log_src_dir$fileName to $log_toupload_dir"fantj_log_$fileName"$date"
                mv $log_src_dir$fileName $log_toupload_dir"fantj_log_$fileName"$date
                #将待上传的文件path写入一个列表文件willDoing
                echo $log_toupload_dir"fantj_log_$fileName"$date >> $log_toupload_dir"willDoing."$date
        fi

done

把已经扫描到的日志文件重命名，然后mv到待上传目录，然后打印日志，并对mv成功的日志文件加上willDoing做未完成上传标记。

4. 开始上传

#找到列表文件willDoing
ls $log_toupload_dir | grep will |grep -v "_COPY_" | grep -v "_DONE_" | while read line
do
        #打印信息
        echo "toupload is in file:"$line
        #将待上传文件列表willDoing改名为willDoing_COPY_
        mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"
        #读列表文件willDoing_COPY_的内容（一个一个的待上传文件名）  ,此处的line 就是列表中的一个待上传文件的path
        cat $log_toupload_dir$line"_COPY_" |while read line
        do
                #打印信息
                echo "puting...$line to hdfs path.....$hdfs_root_dir"
                hadoop fs -put $line $hdfs_root_dir
        done
        mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"
done

5. 测试

我在/home/fantj/log目录下放一个access.log文件，然后执行脚本。

[root@s166 fantj]# ./upload2hdfs.sh

envs: hadoop_home: /home/fantj/hadoop/
log_src_dir:/home/fantj/log/
moving /home/fantj/log/access.log to /home/fantj/toupload/fantj_log_access.log2018_07_29_12_49_03
toupload is in file:willDoing.2018_07_29_12_49_03
puting.../home/fantj/toupload/fantj_log_access.log2018_07_29_12_49_03 to hdfs path...../data/log/

[root@s166 fantj]# hadoop fs -ls -R /data/
drwxr-xr-x   - root supergroup          0 2018-07-29 00:49 /data/log
-rw-r--r--   3 root supergroup      14340 2018-07-29 00:49 /data/log/fantj_log_access.log2018_07_29_12_49_03
-rw-r--r--   3 root supergroup      14340 2018-07-28 13:53

微信关注我们

原文链接：https://yq.aliyun.com/articles/650206

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

用Elasticsearch构建电商搜索平台

电商数据系统主要类型一个中等的电商平台，每天都要产生百万条原始数据，上亿条用户行为数据。一般来说，电商数据一般有3种主要类型的数据系统：关系型数据库，大多数互联网公司会选用mysql作为关数据库的主选，用于存储商品，用户信息等数据。关系型数据库对于事务性非常高的OLTP操作(比如订单，结算等)支持良好。 hadoop生态，hadoop是数据仓库主要的载体，除了备份关系型数据库的所有版本，还存储用户行为，点击，曝光，互动等海量日志数据，hadoop对于数据分析，数据挖掘等OLAP支持比关系型数据库更加具有扩展性和稳定性。搜索引擎，以elasticsearch和solr为代表。搜索引擎是获取信息最高效的途径，几乎成为各类网站，应用的基础标配设施(地位仅次于数据库)。目前搜索引擎技术已经有非常成熟的开源解决方案，最出名的ElasticSearch和Solr都是基于lucence的。很多中小型互联网公司搜索引擎都是基于这两个开源系统搭建的，但是即便如此，一个搜索引擎团队想把搜索引擎质量做到商用标准，从系统熟悉，服务搭建，功能定制，通常需要花费较长时间。通用搜索引擎应用在互联网...

2018-08-01

618

虚拟机中Linux（Ubuntu16.04）与本地Win7共享文件夹一、前面的废话在虚拟机里装了系统之后想要在系统里安装软件真的是很头疼的事，因为在虚拟机里面下载东西比较慢，来回折腾U盘也很麻烦，尤其是如果你需要在虚拟机里的好几个系统里装相同的软件，那更是能急死人，但如果虚拟机里的系统能访问本地系统的话就太棒了，在本地系统下下载一份需要的文件，在所有虚拟机里都能用，真的省去了很多麻烦。二、文件共享设置 1、虚拟机设置虚拟机菜单栏 -> 虚拟机 -> 设置 -> 选项 -> 共享文件夹 -> 总是启用 -> 添加（我将添加的共享目录命名为Shared） ->确定 2、VMware Tools安装（1）虚拟机菜单栏 -> 虚拟机 -> 安装VMware Tools （2）等一会虚拟机会自己打开VMware Tools文件夹（3）在该目录下，右键打开命令行，将压缩文件拷贝到桌面上，再到桌面上将其解压缩 cp VMwareTools-10.1.6-5214329.tar.gz /home/hadoop/Desktop/ cd /...

2018-08-02

713

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。