kafka部署及命令-低调大师

kafka部署及命令

2018-10-23 752

下载地址:

Zookeeper:

http://mirror.bit.edu.cn/apache/zookeeper/current/

Scala:

http://www.scala-lang.org/download/2.11.8.html

Kafka:

http://kafka.apache.org/downloads

一.Zookeeper部署

1.下载解压zookeeper-3.4.6.tar.gz

[root@hadoop001 software]# tar -xvf zookeeper-3.4.6.tar.gz

[root@hadoop001 software]# mv zookeeper-3.4.6 zookeeper

[root@hadoop001 software]#

[root@hadoop001 software]# chown -R root:root zookeeper

2.修改配置

[root@hadoop001 software]# cd zookeeper/conf

[root@hadoop001 conf]# ll

total 12

-rw-rw-r--. 1 root root 535 Feb 20 2014 configuration.xsl

-rw-rw-r--. 1 root root 2161 Feb 20 2014 log4j.properties

-rw-rw-r--. 1 root root 922 Feb 20 2014 zoo_sample.cfg

[root@hadoop001 conf]# cp zoo_sample.cfg zoo.cfg

[root@hadoop001 conf]# vi zoo.cfg

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/opt/software/zookeeper/data

# the port at which the clients will connect

clientPort=2181

# the maximum number of client connections.

# increase this if you need to handle more clients

#maxClientCnxns=60

#

# Be sure to read the maintenance section of the

# administrator guide before turning on autopurge.

#

# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

#

# The number of snapshots to retain in dataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable auto purge feature

#autopurge.purgeInterval=1

server.1=hadoop001:2888:3888

server.2=hadoop002:2888:3888

server.3=hadoop003:2888:3888

~

"zoo.cfg" 36L, 1028C written

[root@hadoop001 conf]# cd ../

[root@hadoop001 zookeeper]# mkdir data

[root@hadoop001 zookeeper]# touch data/myid

[root@hadoop001 zookeeper]# echo 1 > data/myid

[root@hadoop001 zookeeper]#

3.hadoop002/003,也修改配置,就如下不同

[root@hadoop001 software]# scp -r zookeeper 192.168.137.141:/opt/software/

[root@hadoop001 software]# scp -r zookeeper 192.168.137.142:/opt/software/

[root@hadoop002 zookeeper]# echo 2 > data/myid

[root@hadoop003 zookeeper]# echo 3 > data/myid

###切记不可echo 3>data/myid,将>前后空格保留,否则无法将 3 写入myid文件

4.启动Zookeeper集群

[root@hadoop001 bin]# ./zkServer.sh start

[root@hadoop002 bin]# ./zkServer.sh start

[root@hadoop003 bin]# ./zkServer.sh start

5.查看Zookeeper状态

[root@hadoop001 bin]# ./zkServer.sh status

JMX enabled by default

Using config: /opt/software/zookeeper/bin/../conf/zoo.cfg

Mode: follower

[root@hadoop002 bin]# ./zkServer.sh status

JMX enabled by default

Using config: /opt/software/zookeeper/bin/../conf/zoo.cfg

Mode: leader

[root@hadoop002 bin]#

[root@hadoop003 bin]# ./zkServer.sh status

JMX enabled by default

Using config: /opt/software/zookeeper/bin/../conf/zoo.cfg

Mode: follower

[root@hadoop003 bin]#

6.进入客户端

[root@hadoop001 bin]# ./zkCli.sh

[zk: localhost:2181(CONNECTED) 0] ls /

[zookeeper, yarn-leader-election, hadoop-ha, rmstore]

[zk: localhost:2181(CONNECTED) 1]

[zk: localhost:2181(CONNECTED) 1] help

ZooKeeper -server host:port cmd args

stat path [watch]

set path data [version]

ls path [watch]

delquota [-n|-b] path

ls2 path [watch]

setAcl path acl

setquota -n|-b val path

history

redo cmdno

printwatches on|off

delete path [version]

sync path

listquota path

rmr path

get path [watch]

create [-s] [-e] path data acl

addauth scheme auth

quit

getAcl path

close

connect host:port

[zk: localhost:2181(CONNECTED) 2]

二.Kafka部署

1.解压并配置Scala

[root@hadoop001 software]# tar -xzvf scala-2.11.8.tgz

[root@hadoop001 software]# chown -R root:root scala-2.11.8

[root@hadoop001 software]# ln -s scala-2.11.8 scala

#环境变量

[root@hadoop001 software]# vi /etc/profile

export SCALA_HOME=/opt/software/scala

export PATH=$SCALA_HOME/bin:$PATH

[root@hadoop001 software]# source /etc/profile

[root@hadoop001 software]# scala

Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_45).

Type in expressions for evaluation. Or try :help.

2.下载基于Scala 2.11的kafka版本为0.10.0.1

[root@hadoop001 software]# tar -xzvf kafka_2.11-0.10.0.1.tgz

[root@hadoop001 software]# ln -s kafka_2.11-0.10.0.1 kafka

[root@hadoop001 software]#

3.创建logs目录和修改server.properties

[root@hadoop001 software]# cd kafka

[root@hadoop001 kafka]# mkdir logs

[root@hadoop001 kafka]# cd config/

[root@hadoop001 config]# vi server.properties

broker.id=1

port=9092

host.name=192.168.137.141

log.dirs=/opt/software/kafka/logs

zookeeper.connect=192.168.137.141:2181,192.168.137.142:2181,192.168.137.143:2181/kafka

4.环境变量

[root@hadoop001 config]# vi /etc/profile

export KAFKA_HOME=/opt/software/kafka

export PATH=$KAFKA_HOME/bin:$PATH

[root@hadoop001 config]# source /etc/profile

5.另外两台机器如上操作

6.启动/停止

[root@sht-sgmhadoopdn-01 kafka]# nohup kafka-server-start.sh config/server.properties &

[root@sht-sgmhadoopdn-02 kafka]# nohup kafka-server-start.sh config/server.properties &

[root@sht-sgmhadoopdn-03 kafka]# nohup kafka-server-start.sh config/server.properties &

###停止

bin/kafka-server-stop.sh

---------------------------------------------------------------------------------------------------------------------------------------------

7.模拟实验1

创建test topic

bin/kafka-topics.sh --create \

--zookeeper 192.168.137.141:2181,192.168.137.142:2181,192.168.137.143:2181/kafka \

--replication-factor 3 --partitions 3 --topic test

在一个终端，启动Producer，并向我们上面创建的名称为my-replicated-topic5的Topic中生产消息，执行如下脚本：

bin/kafka-console-producer.sh \

--broker-list 192.168.137.141:9092,192.168.137.142:9092,192.168.137.143:9092 --topic test

在另一个终端，启动Consumer，并订阅我们上面创建的名称为my-replicated-topic5的Topic中生产的消息，执行如下脚本：

bin/kafka-console-consumer.sh \

--zookeeper 192.168.137.141:2181,192.168.137.142:2181,192.168.137.143:2181/kafka \

--from-beginning --topic test

可以在Producer终端上输入字符串消息行，就可以在Consumer终端上看到消费者消费的消息内容。

------------------------------

微信关注我们

原文链接：https://yq.aliyun.com/articles/657158

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark应用HanLP对中文语料进行文本挖掘--聚类

软件：IDEA2014、Maven、HanLP、JDK；用到的知识：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition; 用到的数据集：http://www.threedweb.cn/thread-1288-1-1.html（不需要下载，已经包含在工程里面）；工程下载：https://github.com/fansy1990/hanlp-test。问题描述现在有一个中文文本数据集，这个数据集已经对其中的文本做了分类，如下：其中每个文件夹中含有个数不等的文件，比如环境有200个，艺术有248个；同时，每个文件的内容基本上就是一些新闻报道或者中文描述，如下：现在需要做的就是，把这些文档进行聚类，看其和原始给定的类别的重合度有多少，这样也可以反过来验证我们聚类算法的正确度。解决思路： 2.1 文本预处理： 1. 由于文件的编码是GBK的，读取到Spark中全部是乱码，所以先使用Java把代码转为UTF8编码； 2. 由于文本存在多个文件中（大概2k多），使用Spark的wholeTextFile读取速度太慢，所以考虑把这些文件...

2018-10-23

704

1.使用块查询块查询一般来说比单文档查询表现出更好的性能。为了获取快查询最佳新能，你可以在单节点地单分片上运行一个基准，第一次100个文档，第二次200个文档，然后400个，以此类推。每次基准运行的数量都是两倍于前一次的数量。当索引速度达到峰值的时候你就知道你的数据索引最佳的块文档数量。如果峰值存在于两个数量上，最好还是以最少的数量去索引。块查询数量越大也就意味着在进行同步查询的时候对内存压力也就越大。建议大家每次发送请求时不要超过几十兆尽管有时更大的请求表现地更好。 2.使用多线程发送数据到es中使用单个线程不可能将es集群的索引性能最大化。为了充分利用es集群的资源，你应该使用多线程或进程发送数据。除了最大化集群的资源使用，这也会帮助减少非同步的成本。注意TOO_MANY_REQUESTS(429)返回码（在java客户端中报EsRejectedExecutionException错误），这是告诉你es目前无法跟上你的索引速率。当这种情况发生时，你应该在下次发送请求之前先暂停下。理想情况下，它会自动恢复。跟确定最佳bulk请求数量类似，只有通过测试才能知道最佳的调用者数量...

2018-10-24

632

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。