jstorm简介（转）-低调大师

jstorm简介（转）

2016-05-29 705

Jstorm是参考storm的实时流式计算框架，在网络IO、线程模型、资源调度、可用性及稳定性上做了持续改进，已被越来越多企业使用

作为commiter和user，我还是非常看好它的应用前景，下面是在团队内的分享介绍，更多请参考https://github.com/alibaba/jstorm

一、jstorm是什么

jstorm可以看作是storm的java增强版本，除了内核用纯java实现外，还包括了thrift、python、facet ui。从架构上看，其本质是一个基于zk的分布式调度系统

Jstorm主要应用场景有：

1.信息流处理，如聚合、分析等

2.持续计算，如实时数据统计、监控

3.分布式rpc调用

Jstorm在内核上对storm的改进有：

（1）模型简化

（2）多维度资源调度

（3）网络通信层改造

（4）采样重构

（5）worker/task内部异步化处理

（6）classload、HA

模型简化将storm的三层管理模型简化为两层

jstorm中task直接对应了线程概念，而在storm中是task只是线程executor的一个执行逻辑单元

多维度资源调度 分为cpu、memory、net、disk四个维度，默认情况下：

cpu slots = 机器核数 * 2 -1

memory slots = 机器物理内存 / 1024M

net slots = min(cpu slots, memory slots)

网络通信层 采用了netty + disruptor 替换 zmq + blockingQueue

采样重构

a.定义了滚动时间窗口

b.优化缓存map性能

c.增量采样时间以及减少无谓数据

Worker/Task内部异步化

异步化和回调是流式框架最基本的两大特征，Jstorm在task的计算中将nextTuple和ack/fail的逻辑分离开来，并在worker中采用单独线程负责流入、流出数据的反序列化及序列化工作

有关jstorm实现的几个关键流程，有兴趣的可以参考源码

1.Nimbus的启动

2.supervisor的启动

3. worker内部结构

worker的启动需要完成以下几件事：

a.读取配置文件，启动进程

b.初始化tuple接收队列和发送队列

c.打开端口，启动rpc服务

d.创建context结构，<component, <stream, output_field>>

e.触发各种timer,refresh/reconnection/heartbeat...

task的工作包括：

a.创建内部队列，bind connection

b.反射component拿到taskObj，创建具体的spout/bolt executor

c.反序列化tuple数据，执行处理逻辑

d.做stats，heartbeat等

jstorm在数据的完整性和准确性上分别依赖了acker和事务机制

acker本质是独立的bolt，input是fieldGrouping，output是directGrouping；

每个bolt有两个output stream(ACKER_ACK_STREAM_ID/ACKER_ACK_FAIL_STREAM_ID)

每个spout有一个output stream(ACKER_INIT_STREAM_ID),以及两个input stream(ACKER_ACK_STREAM_ID/ACKER_ACK_FAIL_STREAM_ID)
    Spout
        发送给acker 的value <rootid, xor(target_task_list)>
        发送下一级bolt 的value <rootid, 目标taskid>
    Bolt
         下一级bolt需要ack发送给下一级bolt 为<rootid, 新uuid)>发送给acker的value为<rootid, xor(新uuid, $(接收值))>
         下一级bolt不需要ack发送给下一级bolt 为空发送给acker为<rootid, $(接收值)>

事务：批处理+全局唯一递增id+两阶段提交

在发送tuple的时候带上tid来保证“只有一次”的原语，下游逻辑根据tid是否next tid来判断是否需要处理。为了提高效率，会将多个tuple组装成一批赋予一个tid，并用pipeline方式执行processing和commit阶段，其中processing可以并发执行，而commit具有严格的强顺序性。接口coordinator，commitor中做了状态管理、事务协调、错误检查等工作

另外一个用得最多的高级特性就是trident，它对bolt进行了封装，提供了如joins、aggregations、grouping、filters、function等多种高级数据处理能力

最后，谈谈有关jstorm的运维开发

（1）配置优先级：代码 > jstorm.yaml > default.yaml

（2）stream流对比：

a.fieldsGrouping

b.globalGrouping - target componet的第一个task

c.shuffleGrouping - 自定义random，更平均

d.noneGrouping - 调用random

e.allGrouping - target component所有task

f.directGrouping - 指定目标task

g.customGrouping - 接口customStreamGrouping

（3）jvm调优，优先考虑新生代，开启碎片整理

（4）同一worker内的task，开启定向调度避免网络开销

（5）优雅关闭，reblance或kill前先deactive，等待msg_timeout进行数据清理

（6）其它，hooks、queue-size、topology.max.spout.pending等

http://luoshi0801.iteye.com/blog/2168848

微信关注我们

原文链接：https://yq.aliyun.com/articles/269864

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《hadoop进阶》PeopleRank从社交关系中挖掘价值用户

转载请注明出处：转载自 Thinkgamer的CSDN博客： blog.csdn.net/gamer_gyt 代码下载地址：点击查看 pagerank算法的python实现请参考：http://blog.csdn.net/gamer_gyt/article/details/47443877 pagerank算法的mapreduce实现请参考：http://blog.csdn.net/gamer_gyt/article/details/47451021 1：PageRank 与 PeopleRank 2：需求分析：挖掘CSDN博客的价值用户 3：算法模型：PeopleRank算法 4：架构设计：从数据准备到PR算法的MR化 5：程序开发：hadoop实现PeopleRank算法一：PageRank与PeopleRank PageRank算法是Google从垃圾堆里捡黄金的重量级算法，它让谷歌的搜索引擎一度成为No.1，当然谷歌所公开的PR算法毕竟是过去式了，既然它能公开，那么肯定不是它最新的算法演化版本，但是不管怎样，我们依旧从中学习到很多创新和独特的思想。 PR算法主要用于网页...

2016-05-28

612

机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib，采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache Spark相关的tweets . 初始输入是混合在一起的tweets。首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能.  本章重点如下:   •了解 Spark MLlib 模块及其算法，还有典型的机器学习流程 .    • 预处理所采集的Twitter 数据集提取相关特性，应用非监督集群算法识别Apache Spark- 相关的tweets. 然后, 评估得到的模型和结果.     • 描述Spark 机器学习的流水线.      Spark MLlib 在应用架构中的位置先看一下数据学习在数据密集型应用架构中的位置，集中关注分析层，准确一点说是机器学习。这是批处理和流处理数据学习的基础，它们只是推测的规则不同。  下图指出了重点, 分析层处理的探索式数据分析工具 Spark SQL和Pandas外还有机器学习模块.      Spark MLlib 算法分类 Spark...

2016-05-29

692

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。