【数据蒋堂】第15期:开放的计算能力为数据库瘦身
【数据蒋堂】第14期:计算封闭性导致臃肿的数据库 我们在上一期谈到,数据库的臃肿,也就是过多的中间表以及相关存储过程,是由于其计算封闭性造成的。如果能够实现独立的计算引擎,使计算不再依赖于数据库提供,那么就可以为数据库瘦身了。 内部来源的中间数据不必再以数据表的形式落地在数据库中,而可以放到文件系统中,由外部计算引擎提供进一步的计算能力。对于只读的中间数据,使用文件存储时不需要考虑再改写,可以更为紧致并采用一定的压缩手段,而且在访问时也不必考虑事务一致性,机制大为简化,这样能获得比数据库更好多的吞吐性能。文件系统还可以采用树形组织方案,将各个应用(模块)的中间数据分类管理好,使更方便,并且可使中间数据将从属于应用模块,不会被其它模块访问到。当有模块修改或下线时,相应的中间数据可以跟随修改,而不必担心被共享而产生的耦合问题。用于生成中间数据的存储过程也可以移到数据库外部,作为应用程序的一部分,同样不会产生耦合问题。 外部来源的中间表也可以减少甚至取消。ETL过程的E、T步骤可以直接在数据库外部由计算引擎实施,在完成清洗转换之后再加载进数据库。E、T步骤中不占用数据库的计算资源,当然也不需...