Apache Storm源码阅读笔记&OLAP在大数据时代的挑战-低调大师

Apache Storm源码阅读笔记&OLAP在大数据时代的挑战

2016-09-11 697

<一>Apache Storm源码阅读笔记

楔子

自从建了Spark交流的QQ群之后，热情加入的同学不少，大家不仅对Spark很热衷对于Storm也是充满好奇。大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲。

尽管自己也陆续对storm的源码走读发表了一些博文，当时写的时候比较匆忙，有时候衔接的不是太好，此番做了一些整理，主要是针对TridentTopology部分，修改过的内容采用pdf格式发布，方便打印。

文章中有些内容的理解得益于徐明明和fxjwind两位的指点，非常感谢。

storm.pd...[许鹏].1473672493.pdf

<二>OLAP在大数据时代的挑战

数据的价值

在涉及具体的技术前，先想一想为什么需要OLAP这样的系统，它有什么价值或者说在公司或部门这是不可取代的么？可以带来哪些价值，是直接变现还是间接变现。如果不能回答或回答不了，那么就是一个很大的问题，这其实意味着数据的质量存在问题。没有质量的数据，体量再大也毫无价值。

数据存储

假设已经有很好的oltp系统，那么oltp系统在数据量不大的情况下，继续扮演olap角色也还可以。一旦业务红火，那么oltp中的analyze部分势必会分离出来，也就是olap和oltp相互单独存在。

olap中存储大量历史数据，数据存储成了olap中要解决的第一个也是首要问题，这个需求的解决方案有多种，可以是HDFS，也可以是NoSQL数据库，也可以是Distributed RDBMS，当中的取舍要视具体情况而定。后面会涉及具体的考虑维度。

数据同步和ETL

如何将数据从oltp迁移到olap，这个同步机制需要考虑数据一致性，zero data-loss, 实时性要求等等。

数据查询

在大量甚至是海量的历史数据中如何快速定位到所要符合条件的记录？数据量如果在TB级以上，就需要考虑使用solr或是elasticsearch

数据分析

花了好多代价保存下来的海量数据，只是用了做简单明细查询，任何老板都不能容忍，一定要在历史的数据进行复杂的分析才行。这时候有一个好的分布式计算引擎就很有必要了。如spark/presto/impala

数据挖掘

数据挖掘是一种比数据分析更为复杂的数据分析，呵呵，个人理解，有些绕。这个时候什么算法啦，什么机器学习啦，可以上场了。

big data or fast data

数据分析中还需要考虑到另一个重要约束就是时间，如果希望分析结果愈快愈好，那么就需要采用如druid这样的系统。

结果

如果数据规模在10TB以下，数据包含结构化和半结构化数据，明细查询中条件比较固定，不存在全文搜索。需要在比较短的时间内如秒级得到复杂分析结果，可以考虑使用distributed rdbms.

如果数据规模远远超过10TB，那么就需要将数据存储/数据查询/数据分析交由不同的系统来处理，这个时候就需要组成一个技术栈来解决总量。如HDFS/solr or elasticsearch/Spark or Presto or Impala. 为了提升分析的效率，除了从distributed computing engine侧进行优化之外，还需要从存储侧进行优化，采用先进的存储格式如parquet/orc/carbondata将会极大的提升分析性能。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60519

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

elasticsearch-sql 增加 jdbc支持

增加该功能，纯粹是在关issue的时候看到了第一个issue,参看 Is there any plan for JDBC drivers?。大家讨论的时候，提供了两个选择，一个是apache calcite, 另外一个是利用 alibaba 的jdbc 连接池 druid。最后我选择了使用druid 来完成。为啥不用第一个的原因如下： I have tried calcite to add this feature to es-sql. It's proved to be unsuitable. calcite kind like spark datasource API which provide scanTable,filterTabe,translateTable which means you cannot access original sql(Raw SQL) but some expressions . Also, this means join ,group by action are all done in calcite which really impact p...

2016-09-11

867

上次在做内部培训的时候，我讲了这么一句：一个Job里的Stage都是串行的，前一个Stage完成后下一个Stage才会进行。显然上面的话是不严谨的。看如下的代码： Snip20160903_17.png 这里的话，我们构建了两个输入(input1,input2)，input2带有一个reduceByKey,所以会产生一次Shuffle,接着进行Join,会产生第二次Shuffle(值得注意的是，join 不一定产生新的Stage,我通过强制变更join后的分区数让其发生Shuffle ，然后进行Stage的切分)。所以这里一共有两次Shuffle,产生了四个Stage。下图是Spark UI上呈现的。那这四个Stage的执行顺序是什么呢？ Snip20160903_11.png 再次看Spark UI上的截图： Snip20160903_16.png 我们仔细分析下我们看到现象：首先我们看到 Stage0,Stage 1 是同时提交的。 Stage0 只有两条记录，并且设置了两个Partition,所以一次性就能执行完,也就是3s就完成了。 Stage1 有四个分区，六条记...

2016-09-11

838

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。