【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析
【场景】
用户搭建网站会不断的产生访问日志(Nginx,Apache访问日志)。为了从访问日志中挖掘出更多价值,本文主要阐述如果利用阿里云数加从沉睡中的访问日志中获取更有价值的数据,包括用于实时统计和展示网站访问的一系列指标,例如PV,UV,设备,地理,状态码,爬虫,网络流量等指标。
【具体分析需求】
用户想根据访问日志来实时统计和展示网站访问重要指标,需要设计到流式计算和离线计算,那么阿里云数加·StreamCompute更好的可以解决日志的实时计算场景,而阿里云数加·MaxCompute则更好的来处理批量数据,适合于离线数据计算。
那么如何来使用阿里云数加来构建一个高可用的数加架构两者计算场景都可以满足?
【日志字段】
- 日志格式:
$remote_addr - $remote_user [$time_local] “$request” $s