Apache Kylin权威指南3.1　为什么要增量构建-低调大师

Apache Kylin权威指南3.1　为什么要增量构建

2017-05-01 642

第3章

增量?构建

第2章介绍了如何构建Cube并利用其完成在线多维分析的查询。每次Cube的构建都会从Hive中批量读取数据，而对于大多数业务场景来说，Hive中的数据处于不断增长的状态。为了支持Cube中的数据能够不断地得到更新，且无需重复地为已经处理过的历史数据构建Cube，因此对于Cube引入了增量构建的功能。

我们将Cube划分为多个Segment，每个Segment用起始时间和结束时间来标志。Segment代表一段时间内源数据的预计算结果。在大部分情况下（例外情况见第4章“流式构建”），一个Segment的起始时间等于它之前那个Segment的结束时间，同理，它的结束时间等于它后面那个Segment的起始时间。同一个Cube下不同的Segment除了背后的源数据不同之外，其他如结构定义、构建过程、优化方法、存储方式等都完全相

微信关注我们

原文链接：https://yq.aliyun.com/articles/82720

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【深解读】什么是数据科学？如何把数据变成产品？

未来属于那些知道如何把数据变成产品的企业和个人。 --麦克.罗克德斯（Mike Loukides）据哈尔•瓦里安（Hal Varian）说，统计学家是下一个性感的工作。五年前，在《什么是Web 2.0》里蒂姆•奥莱利（Tim O’Reilly）说“数据是下一个Intel Inside”。但是这句话到底是什么意思？为什么我们突然间开始关注统计学和数据？在这篇文章里，我会检视数据科学的各个方面，技术、企业和独特技能集合。互联网上充斥着“数据驱动的应用”。几乎任何的电子商务应用都是数据驱动的应用。这里面前端的页面靠背后的数据库来支持，它们两者之间靠中间件来连接其他的数据库和数据服务（信用卡公司、银行等等）。但是仅仅使用数据并不是我们所说的真正的“数据科学”。一个数据应用从数据里获取价值，同时创造更多的数据作为产出。它不只是带有数据

2017-05-01

743

虽然此文尽力做到全面，但难免遗漏，欢迎大家补充，点击文末右下角“写评论”，分享你的观点。说到处理大数据的工具，普通的开源解决方案（尤其是Apache Hadoop）堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。Market Research的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率（CAGR）高速增长；到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出了3500名研究人员开发Apache Spark，这个工具是Hadoop生态系统的一部分。这回我们推出了最新的顶级开源大数据工具排行榜。这个领域最近方兴未艾，许多新项目纷纷启动。许多最知名的项目由Apache基金会管理，与Hadoop密切相关。请

2017-05-01

703

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。