hadoop和Hive的数据处理流程
需求 场景:统计每日用户登陆总数 每分钟的原始日志内容如下: http://www.blue.com/uid=xxxxxx&ip=xxxxxx 假设只有两个字段,uid和ip,其中uid是用户的uid,是用户的唯一标识,ip是用户的登陆ip,每日的记录行数是10亿,要统计出一天用户登陆的总数。 处理流程 建表 那么我们首先要在hive里建表,建表语句如下: CREATE TABLE login ( uid STRING, ip STRING ) PARTITIONED BY (dt STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 其实表名是login,字段之间以,隔开,存储是TEXT,其次还以dt这个字段作为分区。 创建成功之后,会看到hdfs上创建了/user/hive/warehouse/login这个目录。 格式化原始日志 将每天的每分钟的原始日志,转换成以下文件格式 123,17.6.2.6 112,11.3.6.2 ……….. 根据文件大小,合并文件,例如合并为24...