大数据OLAP系统 (1)
数据生产面临的挑战 数据爆炸,每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题: 历史数据每日刷新,失去了增量的意义。 每日回溯历史数据量大,10亿+的历史数据回溯。 数据计算耗时3小时+,存储1TB+,消耗大量计算存储资源,同时严重影响SLA的稳定性。 预计算的大量历史数据实际使用率低下,实际工作中对历史的回溯80%集中在近1个月左右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 引入MPP引擎,数据现用现算 历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行计算能力。 OLAP的实现有 MOLAP、ROLAP、HOLAP 三种形式。 MOLAP 以Cube为表现形式,但计算与管理成本较高。 ROLAP 需要强大的关系型DB引擎支撑。 长期以来,由于传统关系型DBMS的数据处理能力有限,所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用,MPP引擎逐渐表现出强大的高吞吐、低时延计算能力,号称“亿级秒开”的引擎不在少数,ROLAP模式可以得到更好的延伸。单从业务实际应用考虑,性能在...