storm实时流式计算框架集群搭建过程
http://blog.csdn.net/comaple/article/details/7896167
这几天在其他同事的帮助下,调研了twitter的开源流式计算框架storm的使用,下面分享一下storm集群的安装配置过程。以作备忘之用。
我的实验机器为:195和196
如果转载请注明出处:comaple的博客
首先:安装依赖包
1, ZeroMQ 2.1.7
2, JZMQ
3, Java
4, Python
5, Unzip
这里只需要安装1,2就可以了。下面是遇到的一些问题:
安装zeroMQ
下载zeroMQ2.1.7 http://www.zeromq.org/area:download
解压:tar –xvf zeromq-2.1.7.tar.gz
Cd 到bin目录:
./autogen.sh 如果没有找到configure文件时要运行这一步。
./configure
configure: error: cannot link with -luuid, install uuid-dev. 运行时如果报这个错解决方案如下:
yum install uuid-dev 提示找不到该依赖包
yum install uuid* 直接用* ok
./configure 再次运行configure还是报错
configure: error: cannot link with -luuid, install uuid-dev.
上网搜索可能是还缺另外一个包
yum install e2fsprogs* ok
make install
安装JZMQ
a) 下载jzmq.zip https://github.com/nathanmarz/jzmq
b) Cd到bin目录./autogen.sh
c) ./configure
d) make install
安装storm集群
配置说明:10.10.249.195:nimbus 10.10.249.196: supervisor
Storm集群需要zookeeper集群的支持所以应该先安装zookeeper集群。再配置storm集群,下面是storm集群的配置:
10.10.249.195上的配置:
a) 下载storm-0.7.4.zip https://github.com/nathanmarz/storm/downloads
b) 解压后修改conf/storm.yaml文件,
storm.zookeeper.servers:
- "10.10.249.195"
- "10.10.249.196"
c) # nimbus.host:"nimbus" 这个不用改,nimbus负责提交任务,分配任务。相当于namenode节点。
配置好以后到bin目录下:
./storm nimbus 启动storm主节点服务
./storm ui 启动storm监控页面:监控地址:http://hostname:8080
10.10.249.196上的配置:
1,修改storm.yaml 文件:
storm.zookeeper.servers:
-"10.10.249.195"
-"10.10.249.196"
nimbus.host: "10.10.249.195"
#这个是storm将要启动几个本地work,一个端口对应一个work。
supervisor.slots.ports:
- 6700
- 6701
- 6702
- 6703
2,启动supervisor
./storm supervisor
提交任务:
10.10.249.195上面:
./storm jar stormWork.jar SearchKeywordTopNTopology"word-count"
这里有用到的jar文件大家可以试一试:stormWork.jar
监控storm运行情况:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Twitter Storm 实时数据处理框架分析总结
是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。实时数据处理的应用场景很广泛,如上篇文章介绍S4时所说的个性化搜索广告的会话特征分析。而Yahoo当初创建S4项目的直接业务需求就是为了在搜索引擎的‘cost-per-click’广告中,能根据当前情景上下文(用户偏好,地理位置,已发生的查询和点击等)来估计用户点击的可能性并实时做出调整。 这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。 twitter列举了storm的三大作用领域: 1) 信息流处理(Stream Processing) Storm可以用来实时处理新数据和更新数据库,兼具容错性和可扩展性。 2) 连续计算(Continuous Computation) Storm可以进行连续查询并把结果即时反馈给客户,比如将Tw...
- 下一篇
strom打造日志处理系统
Storm + Kafka is a very effective log processing solution. A number of users of Storm use this combination, including us at Twitter in a few instances. Kafka gives you a high throughput, reliable way to persist/replay log messages, and Storm gives you the ability to process those messages in arbitrarily complex ways. http://www.drdobbs.com/open-source/easy-real-time-big-data-analysis-using-s/240143874 http://bigdataprocessing.wordpress.com/2013/01/04/storm-a-real-time-log-processing-framework-re...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Windows10,CentOS7,CentOS8安装Nodejs环境
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路