流式计算-低调大师

流式计算

2018-07-31 687

从spark 说起，谈谈“流式”计算的理解

spark是一个大数据分布式的计算框架，有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算，谈三个概念：

并行计算
Map Reduce 算子
RDD数据结构

并行计算

spark的任务分为1个driver、多个executor。程序启动driver，driver发送执行的程序（jar）到executor，executor在多台机器并行执行。driver和executor可以理解为进程，像httpd一样，完成某些任务，接受并发送数据的进程。

不同的spark任务都需要分配driver、executor。此时，还需要提供资源管理的应用，包括计算资源和内存资源的。

我们采用YARN作为spark资源管理系统，Mesos是另一个资源管理框架。

YARN

Map Reduce 算子

大数据与并行计算的最大区别，我认为就在map reduce算子上。

并行计算更喜欢做“关门打狗”的应用，高度并行，线程之间不做交互，例如口令破译，造表等。

spark中，用transform 和 action代替map Reduce操作。transform中的reduceByKey等操作对整体数据处理。例如，下面的代码是一个transform操作，rdd是(word,1)对象，reducebykey统计相同word出现的次数，这个操作是全局完成的。

rdd.reduceByKey((v1,v2)->v1+v2)

RDD数据结构

在并行计算中，需要维护一个全局数据结构，类似任务种子，每个节点维护与自己种子对应的数据片。

RDD(Resilient Distributed Datasets)，弹性分布式数据集。在spark中，RDD维护一个全局的数据对象。每个任务executor自动对应自己的数据集分片。在编写程序的时候，对executor上到底有哪些数据不用关心，数据集的分片、合并等操作都是透明的，仅需要定义整个数据集的操作。

RDD

spark 大数据应用，挑战

spark用于实现大数据分析功能。如果数据源比较大，有几十亿条，用MySQL做数据分析，可能要一天的时间，spark可能几十分钟就能给出结果（因为采用分布式计算，分布式数据集）。

传统的web服务，属于online业务。online业务要求毫秒级的响应速度，这样的业务产生额外的要求，例如对用户的阅读记录对用户的画像的影响、一个订单对全城车辆调度的影响、一个用户的动态对推荐feed流的影响。

虽然，这些操作实时性不像online业务要求毫秒，但是也是秒级的。对spark批处理提出更多要求。

Spark streaming 解决秒级响应，即流式计算

spark streaming 将spark 批处理应用，缩小为一个微批micro batch，把microbatch作为一个计算单元。

Stream

典型应用如图。大量实时业务产生的实时数据，首先放在一个队列中，例如kafka，Spark streaming 从kafka中取出micorbatch进行处理。

JavaStreamingContext ssc = 
new JavaStreamingContext(sparkConf, Durations.seconds(5));
JavaReceiverInputDStream inputDStream =     
                ssc.socketTextStream("localhost",9999,
                    StorageLevel.MEMORY_AND_DISK());
JavaDStream<String> words =  inputDStream
            .flatMap(s->Arrays.asList(String.valueOf(s)
                          .split(" ")).iterator());

上面的代码案例，定义一个socket输入流，任务每5秒钟执行一次（微批），统计单词个数。

总结

本文是关于spark streaming流式计算理解的介绍文章。

希望读者能通过10分钟的阅读，理解spark streaming 及流式计算的原理。

文中对spark、yarn的原理没有深入讲解，有机会在后面的文章介绍。

下一篇我会根据spark streaming 官网中案例讲解JavaDStream mapWithState的练习。

微信关注我们

原文链接：https://yq.aliyun.com/articles/635552

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

TableStore时序数据存储 - 架构篇

背景随着近几年物联网的发展，时序数据迎来了一个不小的爆发。从DB-Engines上近两年的数据库类型增长趋势来看，时序数据库的增长是非常迅猛的。在去年我花了比较长的时间去了解了一些开源时序数据库，写了一个系列的文章（综述、 HBase系、 Cassandra系、 InfluxDB、 Prometheus），感兴趣的可以浏览。这几大开源时序数据库的实现各有千秋，都不是很完美，但是如果可以取长补短，倒是能实现一个比较完美的时序数据库。 TableStore作为阿里云自研的分布式NoSQL数据库，在数据模型上我们是多模型设计，包含和BigTable一样的Wide Column模型以及针对消息数据的Timeline模型。在存储模型、数据规模以及写入和查询能力上，都能比较好的满足时序数据场景的需求。但我们作为一个通用模型数据库，时序数据存储要完全发挥

2018-07-31

718

在6月上旬举行的云栖大会上海峰会上，阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务（HDR for Big Data, 简称 HDR-BD），并已经在7月份开始邀测。HDR-BD采用业界领先的数据双向实时复制技术，可以实现Hadoop集群双活和准0 RPO容灾，为大数据灾备制定了全新的标准。常见Hadoop灾备技术的挑战当前比较常见的Hadoop集群灾备方式是用distcp将数据定期复制到一个备用集群做容灾用途，或者将数据复制到只读集群、二级存储作为多恢复点的备份。这些方案都有明显弱点。 RPO和RTO是衡量灾备方案的两个重要指标，RPO-恢复点目标，决定了丢失多少数据，RTO-恢复时间目标，决定了业务中断了多长时间。由于传统的Hadoop集群灾备方式使用的是distcp来做容灾，也就意味着数据复

2018-08-01

685

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

流式计算

从spark 说起，谈谈“流式”计算的理解

并行计算

Map Reduce 算子

RDD数据结构

spark 大数据应用，挑战

Spark streaming 解决秒级响应，即流式计算

总结

TableStore时序数据存储 - 架构篇

【公测中】阿里云发布国内首个大数据双活容灾服务，满足高要求大数据灾备场景

相关文章

发表评论

资源下载

优质分享App

Mario

Nacos

Rocky Linux

欢迎您！