通过LogShipper对接数据仓库
日志服务LogShipper功能可以便捷地将日志数据投递到OSS、TableStore、MaxCompute等存储类服务,配合E-MapReduce(Spark、Hive)、MaxCompute进行离线计算。
数仓(离线计算)
数据仓库+离线计算是实时计算的补充,两者针对目标不同:
| 模式 | 优势 | 劣势 | 使用领域 |
|---|---|---|---|
| 实时计算 | 快速 | 计算较为简单 | 增量为主,监控、实时分析 |
| 离线计算(数据仓库) | 精准、计算能力强 | 较慢 | 全量为主,BI、数据统计、比较 |
目前对于数据分析类需求,同一份数据会同时做实时计算+数据仓库(离线计算)。例如对访问日志:
- 通过流计算实时显示大盘数据:当前PV、UV、各运营商信息
- 每天晚上对全量数据进行细节分析,比较增长量、同步/环比,Top数据等
互联网领域有两种经典的模式讨论:
- Lamdba Architecture: 数据进来后,既支持流式处理、同时存入