Apache Storm 官方文档 —— 配置开发环境-低调大师

Apache Storm 官方文档 —— 配置开发环境

2017-05-21 727

本文详细讲解了配置 Storm 开发环境的相关信息。简单地说，配置过程包含以下几个步骤：

下载 Storm 发行版，将其解压缩并复制到你的 PATH 环境变量的 bin 目录中（也可以根据需要自定义安装目录 —— 译者注）；
如果需要在远程集群中运行拓扑，则需要在 ~/.storm/storm.yaml 文件中配置好集群的相关信息。

上述几步的详细内容如下。

什么是开发环境？

Storm 包含两种操作模式：本地模式与远程模式（即集群模式 —— 译者注）。在本地模式下，你可以在本地机器上的一个进程中完成所有的开发、测试拓扑的工作。而在远程模式下，为了运行拓扑，你需要先向服务器集群提交该拓扑。

Storm 的开发环境已经为你准备好了一切，因此，你可以在本地模式下完成开发、测试拓扑的工作，将拓扑打包并提交到远程服务器，并在远程服务器集群上运行或者终止拓扑。

我们再来回顾一下本地机器与远程集群之间的关系。Storm 集群是由一个称为 “Nimbus” 的主节点管理的。本地机器通过与 Nimbus 通信来提交代码（代码已经打包为 jar 格式），这样代码文件中包含的拓扑就可以在集群中运行。Nimbus 会小心地维护着代码在集群中的分布式结构，并为待运行的拓扑分配 worker。本地机器可以使用一个称为 storm 的命令行客户端来与 Nimbus 进行通信。不过，storm 客户端仅用于远程模式，不能用于本地模式下开发、测试拓扑。

在本地机器上安装 Storm

如果要从本地机器上直接向远程集群提交拓扑，你需要在本地机器上安装 Storm 程序。本地的 Storm 程序可以提供与远程集群交互的 storm 客户端。在安装本地 Storm 之前，你需要从这里下载一个 Storm 安装程序并将其解压到你的电脑的某个位置。然后将 Storm 的 bin/目录添加到你的 PATH 环境变量中，确保 bin/storm 脚本可以直接运行。

在本地机器上安装的 Storm 仅能用于与远程集群的交互。对于本地模式下的开发、测试拓扑，推荐使用 Maven 来将 Storm 添加到你的项目的开发依赖中。关于 Maven 的使用请参考此文。

在远程集群上开始/终止拓扑的运行

在上一步中我们已经安装好了本地的 storm 客户端。接下来就需要告诉客户端需要连接哪一个 Storm 集群。这可以通过在 ~/.storm/storm.yaml 文件中填写 Storm 集群的主节点的 host 地址来实现：

nimbus.host: "123.45.678.890"

另外，如果你在 AWS 上应用 storm-deploy 项目来配置 Storm 集群，它会自动配置好你的 ~/.storm/storm.yaml 文件。你也可以使用 attach 命令手动配置附属的 Storm 集群（或者在多个集群之间切换）：

lein run :deploy --attach --name mystormcluster

更多内容请参考 storm-deploy 项目的 wiki。

转载自并发编程网 - ifeve.com

微信关注我们

原文链接：https://yq.aliyun.com/articles/87209

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Apache Storm 官方文档 —— 常用模式

本文列出了 Storm 拓扑中使用的一些常见模式，包括：数据流的 join 批处理 BasicBolt 内存缓存与域分组的结合 Top N 流式计算 TimeCacheMap CoordinatedBolt 与 KeyedFairBolt Joins 数据流的 join 一般指的是通过共有的域来聚合两个或多个数据流的过程。与一般的数据库中 join 操作要求有限的输入与清晰的语义不同，数据流 join 的输入往往是无限的数据集，而且并不具备明确的语义。 join 的类型一般是由应用的需求决定的。有些应用需要将两个流在某个固定时间内的所有 tuple 进行 join，另外一些应用却可能要求对每个 join 域的 join 操作过程的两侧只保留一个 tuple，而其他的应用也许还有一些其他需求。不过这些 join 类型一般都会有一个基本的模式，那就是将多个输入流进行分区。Storm 可以很容易地使用域分组的方法将多个输入流聚集到一个联结 bolt 中，比如下面这样： builder.setBolt("join", new MyJoiner(), parallelism) .fieldsG...

2017-05-21

594

本文阐述了 Storm 0.6.0 以上版本的序列化机制。在低于 0.6.0 版本的 Storm 中使用了另一种序列化系统，详细信息可以参考Serialization (prior to 0.6.0)一文。 Storm 中的 tuple 可以包含任何类型的对象。由于 Storm 是一个分布式系统，所以在不同的任务之间传递消息时 Storm 必须知道怎样序列化、反序列化消息对象。 Storm 使用Kryo对对象进行序列化。Kryo 是一个生成小序列的灵活、快速的序列化库。 Storm 本身支持基础类型、字符串、字节数组、ArrayList、HashMap、HashSet 以及 Clojure 的集合类型的序列化。如果你需要在 tuple 中使用其他的对象类型，你就需要注册一个自定义的序列化器。动态类型在 tuple 中没有对各个域（field）的直接类型声明。你需要将对象放入对应的域中，然后 Storm 可以动态地实现对象的序列化。在学习序列化接口之前，我们先来了解一下为什么 Storm 的 tuple 是动态类型化的。为 tuple 的 fields 增加静态类型会大幅增加 St...

2017-05-21

574

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。