hive导入nginx日志
- CREATE TABLE apachelog (ipaddress STRING, identd STRING, user STRING,finishtime STRING,requestline string, returncode INT, size INT,referer string,agent string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.dynamic_type.DynamicSerDe'WITH SERDEPROPERTIES ('serialization.format'='org.apache.hadoop.hive.serde2.thrift.TCTLSeparatedProtocol','quote.delim'='("|\\[|\\])','field.delim'=' ','serialization.null.format'='-')STORED AS TEXTFILE;
- 203.208.60.91 - - 05/May/2011:01:18:47 +0800 GET /robots.txt HTTP/1.1 404 1238 Mozilla/5.0
- CREATE TABLE log (host STRING,identity STRING,user STRING,time STRING,request STRING,status STRING,size STRING,referer STRING,agent STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?","output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s")STORED AS TEXTFILE;
- 203.208.60.91 - - [05/May/2011:01:18:47 +0800] "GET /robots.txt HTTP/1.1" 404 1238 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大数据利器
大数据利器.xls 类别 名称 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,ApacheHBase之上的一个SQL中间层,完全使用Java编写 Kylin http://kylin.io eBay开源的基于Hadoop的分布式OLAP分析引擎,旨在减少Hadoop在10亿行以上数据级别的情况下的查询延迟 Stinger http://hortonworks.com/labs/stinger/ http://hortonworks.com/hadoop/tez/ 原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架 Presto http://prestodb.io/ Facebook开源 Shark http://shark.cs.berkeley.edu/ Spark上的SQL执行引擎,已演化成Spark-SQL和HiveonSpark Pig http://pig.apache.org/ 基于HadoopMapReduce的脚本语言 ClouderaImpala ...
- 下一篇
Storm的wordCounter计数器详解
原文:http://www.maoxiangyi.cn/index.php/archives/362 拓扑 点击(此处)折叠或打开 package cn.jd.storm; import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.topology.TopologyBuilder; import backtype.storm.tuple.Fields; /** * 功能说明: * 设计一个topology,来实现对一个句子里面的单词出现的频率进行统计。 * 整个topology分为三个部分: * WordReader:数据源,负责发送单行文本记录(句子) * WordNormalizer:负责将单行文本记录(句子)切分成单词 * WordCounter:负责对单词的频率进行累加 * * @author 毛祥溢 * Email:frank@maoxiangyi.cn * 2013-8-26 下午5:59:06 */ public class TopologyMain { ...
相关文章
文章评论
共有0条评论来说两句吧...