一脸懵逼学习KafKa集群的安装搭建--（一种高吞吐量的分布式发布订阅消息系统）-低调大师

一脸懵逼学习KafKa集群的安装搭建--（一种高吞吐量的分布式发布订阅消息系统）

2017-11-02 694

1：KafKa的官方网址：http://kafka.apache.org/

开发流程图，如：

2：KafKa的基础知识：

2.1：kafka是一个分布式的消息缓存系统
2.2：kafka集群中的服务器都叫做broker
2.3：kafka有两类客户端，一类叫producer（消息生产者），一类叫做consumer（消息消费者），客户端和broker服务器之间采用tcp协议连接
2.4：kafka中不同业务系统的消息可以通过topic进行区分，而且每一个消息topic都会被分区，以分担消息读写的负载
2.5：每一个分区都可以有多个副本，以防止数据的丢失
2.6：某一个分区中的数据如果需要更新，都必须通过该分区所有副本中的leader来更新
2.7：消费者可以分组，比如有两个消费者组A和B，共同消费一个topic：order_info,A和B所消费的消息不会重复
　　比如 order_info 中有100个消息，每个消息有一个id,编号从0-99，那么，如果A组消费0-49号，B组就消费50-99号
2.8：消费者在具体消费某个topic中的消息时，可以指定起始偏移量

3：KafKa集群的安装搭建，注意区分单节点KafKa集群的搭建。

　　3.1：kafka集群安装，第一步上传kafka_2.10-0.8.1.1.tgz到虚拟机上面，过程省略，然后进行解压缩操作：

　　3.2：修改kafka配置文件，修改server.properties

修改如下所示，具体情况可以根据手册修改，详细修改可以参考Kafka的文档：

使用自己部署的Zookeeper集群，修改如下所示：

可以直接搜索:/zookeeper.connect找到所要修改的内容：

将配置好的Kafka复制到另外两个节点上面：

[root@master hadoop]# scp -r kafka_2.10-0.8.1.1/ slaver1:/home/hadoop/

[root@master hadoop]# scp -r kafka_2.10-0.8.1.1/ slaver2:/home/hadoop/

然后修改一下另外两台的broker.id=2和broker.id=3：

　　3.3：将zookeeper集群启动：

[root@master hadoop]# cd /home/hadoop/zookeeper-3.4.5/bin/

[root@master bin]# ./zkServer.sh start

[root@slaver2 bin]# ./zkServer.sh status

　　3.4：在每一台节点上启动broker：

　　　　bin/kafka-server-start.sh config/server.properties

Unrecognized VM option 'UseCompressedOops'
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.

启动的时候报错了，问题的根本是UseCompressedOops是jdk8的，而我的jdk是7，所以解决一下问题：

原因是jdk的版本不匹配，需要修改一下配置文件
修改文件：
　　去掉这个配置
　　-XX:+UseCompressedOops

进去以后，搜索一下比较快:/UseCompressedOops，然后看到如下，删除如此配置：

[root@master bin]# vim kafka-run-class.sh

其他两个节点的都按照如此删除掉即可：

修改好以后开始跑：

在每一台节点上启动broker
bin/kafka-server-start.sh config/server.properties

然后按照如此将其他两个节点都启动起来，然后复制xshell的连接看一下jps进程启动情况：

三个都启动起来，可以看一下，broker 1，broker 2，broker 3都启动起来了：

可以使用复制的xshell窗口查看jps进程启动情况：

　　3.5：在kafka集群中创建一个topic：

[root@master kafka_2.10-0.8.1.1]# bin/kafka-topics.sh --create --zookeeper master:2181 --replication-factor 3 --partitions 1 --topic order

可以查看一下自己创建的topic：

[root@master kafka_2.10-0.8.1.1]# bin/kafka-topics.sh --list --zookeeper master:2181

可以创建多个多个topic，也可以查看一下自己创建的topic：

　　3.6：用一个producer向某一个topic中写入消息，生产者产生消息，消费者消费消息，如下生产者可以生产：

如下先启动一下生产者，先不生产消息，然后一个消费者，看看是否有输出，然后再生产消息，再去消费者看看消费消息：

#生产者
[root@master kafka_2.10-0.8.1.1]# bin/kafka-console-producer.sh --broker-list master:9092 --topic order
#消费者
[root@master kafka_2.10-0.8.1.1]# bin/kafka-console-consumer.sh --zookeeper master:2181 --from-beginning --topic order

上面是生产者：

下面是消费者：

　　3.7：查看一个topic的分区及副本状态信息：

自己可以找任意一个xshell复制连接进程查看：

[root@slaver1 kafka_2.10-0.8.1.1]# bin/kafka-topics.sh --describe --zookeeper master:2181 --topic order

4：kafka运行在后台如何操作，如下所示：

　　1>/dev/null：代表标准输入到这个目录；

　　2>&1：代表标准输出也到这个目录下面；

　　&：代表这个是后台运行；

[root@master kafka_2.10-0.8.1.1]# bin/kafka-server-start.sh config/server.properties 1>/dev/null 2>&1 &

微信关注我们

原文链接：https://yq.aliyun.com/articles/310563

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark SQL概念学习系列之Spark SQL是什么？（一）

不多说，直接上干货！ Spark SQL提供在大数据上的SQL查询功能，类似于Shark在整个生态系统的角色，它们可以统称为SQL on Spark。之前，Shark的查询编译和优化器依赖于Hive，使得Shark不得不维护一套Hive分支，而Spark SQL使用Catalyst做查询解析和优化器，并在底层使用Spark作为执行引擎实现SQL的Operator。用户可以在Spark上直接书写SQL，相当于为Spark扩充了一套SQL算子，这无疑更加丰富了Spark的算子和功能，同时Spark SQL不断兼容不同的持久化存储（如HDFS、 Hive等），为其发展奠定广阔的空间。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5723919.html，如需转载请自行联系原作者

2017-11-02

722

RDD的操作　 RDD支持两种操作：转换和动作。 1）转换，即从现有的数据集创建一个新的数据集。 2）动作，即在数据集上进行计算后，返回一个值给Driver程序。例如，map就是一种转换，它将数据集每一个元素都传递给函数，并返回一个新的分布式数据集表示结果。另一个方面，reduce是一种动作，通过一些函数将所有元素叠加起来，并将最终结果返回Driver（还有一个并行的reduceByKey，能返回一个分布式数据集）。下图描述了从外部数据源创建RDD，经过多次转换，通过一个动作操作将结果写回外部存储系统的逻辑运行图。整个过程的计算都是在Worker中的Executor中运行。图 1　RDD的创建、转换和动作的逻辑计算图 RDD的转换 RDD中的所有转换都是惰性的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这个设计让Spark更加有效率地运行。例如我们可以实现：通过map创建的一个新数据集，并在reduce中使用，最终只返回re...

2017-11-02

706

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。