Kafka实战(七) - 优雅地部署 Kafka 集群

2019-12-19 707

既然是集群，必然有多个Kafka节点，只有单节点构成的Kafka伪集群只能用于日常测试，不可能满足线上生产需求。
真正的线上环境需要考量各种因素，结合自身的业务需求而制定。看一些考虑因素（以下顺序，可是分了顺序的哦）

1 操作系统 - OS

可能你会问Kafka不是JVM上的大数据框架吗？Java又是跨平台的语言，把Kafka安装到不同的操作系统上会有什么区别吗？
区别相当大！

确实，Kafka由Scala/Java编写，编译后源码就是“.class”文件。
本来部署到哪个OS应该一样，但是不同OS的差异还是给Kafka集群带来了相当大的影响。
毋庸置疑，部署在Linux上的生产环境是最多的。

考虑操作系统与Kafka的适配性，Linux系统显然要比其他两个特别是Windows系统更加适合部署Kafka。可具体原因你能谈笑风生吗？

1.1 I/O模型

I/O模型可以近似认为I/O模型就是OS执行I/O指令的方法。
主流的I/O模型通常有5种类型：

阻塞式I/O
e.g. Java中Socket的阻塞模式
非阻塞式I/O
e.g. Java中Socket的非阻塞模式
I/O多路复用
e.g. Linux中的系统调用select函数
信号驱动I/O
e.g. epoll系统调用则介于第三种和第四种模型之间
异步I/O
e.g. 很少有Linux支持，反而Windows系统提供了一个叫IOCP线程模型属于该类

我在这里不详细展开每一种模型的实现细节，因为那不是本文重点。

言归正传，I/O模型与Kafka的关系几何？
Kafka Client 底层使用了Java的selector，而selector

在Linux上的实现机制是epoll
在Windows平台上的实现机制是select

因此在这一点上将Kafka部署在Linux上是有优势的，能够获得更高效的I/O性能。

1.2 数据网络传输效率

Kafka生产和消费的消息都是通过网络传输的，而消息保存在哪里呢？
肯定是磁盘！
故Kafka需要在磁盘和网络间进行大量数据传输。
Linux有个零拷贝（Zero Copy）技术，就是当数据在磁盘和网络进行传输时避免昂贵内核态数据拷贝从而实现快速数据传输。Linux平台实现了这样的零拷贝机制，但有些令人遗憾的是在Windows平台上必须要等到Java 8的60更新版本才能“享受”到。

一句话，在Linux部署Kafka能够享受到零拷贝技术所带来的快速数据传输特性带来的极致快感。

1.3 社区生态

社区目前对Windows平台上发现的Kafka Bug不做任何承诺。因此，Windows平台上部署Kafka只适合于个人测试或用于功能验证，千万不要应用于生产环境。

2 磁盘

2.1 灵魂拷问：机械硬盘 or 固态硬盘

前者便宜且容量大，但易坏！
后者性能优势大，但是贵！

建议是使用普通机械硬盘即可。

Kafka虽然大量使用磁盘，可多是顺序读写操作，一定程度上规避了机械磁盘最大的劣势，即随机读写慢。从这一点上来说，使用SSD并没有太大性能优势，机械磁盘物美价廉
而它因易损坏而造成的可靠性差等缺陷，又由Kafka在软件层面提供机制来保证

2.2 是否应该使用磁盘阵列（RAID）

使用RAID的两个主要优势在于：

提供冗余的磁盘存储空间
提供负载均衡

不过就Kafka而言

Kafka自己实现了冗余机制提供高可靠性
通过分区的设计，也能在软件层面自行实现负载均衡

如此说来RAID的优势也就没有那么明显了。虽然实际上依然有很多大厂确实是把Kafka底层的存储交由RAID的，只是目前Kafka在存储这方面提供了越来越便捷的高可靠性方案，因此在线上环境使用RAID似乎变得不是那么重要了。
综上，追求性价比的公司可以不搭建RAID，使用普通磁盘组成存储空间即可。使用机械磁盘完全能够胜任Kafka线上环境。

2.3 磁盘容量

集群到底需要多大？
Kafka需要将消息保存在磁盘上，这些消息默认会被保存一段时间然后自动被删除。
虽然这段时间是可以配置的，但你应该如何结合自身业务场景和存储需求来规划Kafka集群的存储容量呢？

假设有个业务

每天需要向Kafka集群发送1亿条消息
每条消息保存两份以防止数据丢失
消息默认保存两周时间

现在假设消息的平均大小是1KB，那么你能说出你的Kafka集群需要为这个业务预留多少磁盘空间吗？

计算：

每天1亿条1KB的消息，存两份
1亿 * 1KB * 2 / 1000 / 1000 = 200GB
一般Kafka集群除消息数据还存其他类型数据，比如索引数据
再为其预留10%磁盘空间，因此总的存储容量就是220GB
要存两周，那么整体容量即为
220GB * 14，大约3TB
Kafka支持数据的压缩，假设压缩比是0.75
那么最后规划的存储空间就是0.75 * 3 = 2.25TB

总之在规划磁盘容量时你需要考虑下面这几个元素：

新增消息数
消息留存时间
平均消息大小
备份数
是否启用压缩

3 带宽

对于Kafka这种通过网络进行大数据传输的框架，带宽容易成为瓶颈。
普通的以太网络，带宽主要有两种：1Gbps的千兆网络和10Gbps的万兆网络，特别是千兆网络应该是一般公司网络的标准配置了
以千兆网络为例，说明带宽资源规划。

真正要规划的是所需的Kafka服务器的数量。
假设机房环境是千兆网络，即1Gbps，现在有业务，其目标或SLA是在1小时内处理1TB的业务数据。
那么问题来了，你到底需要多少台Kafka服务器来完成这个业务呢？

计算

带宽1Gbps，即每秒处理1Gb数据
假设每台Kafka服务器都是安装在专属机器，即每台Kafka机器上没有混入其他服务
通常情况下你只能假设Kafka会用到70%的带宽资源，因为总要为其他应用或进程留一些资源。超过70%的阈值就有网络丢包可能性，故70%的设定是一个比较合理的值，也就是说单台Kafka服务器最多也就能使用大约700Mb带宽。

这只是它能使用的最大带宽资源，你不能让Kafka服务器常规性使用这么多资源，故通常要再额外预留出2/3的资源，即
单台服务器使用带宽700Mb / 3 ≈ 240Mbps
这里的2/3其实是相当保守的，可以结合机器使用情况酌情减少该值

有了240Mbps，可以计算1小时内处理1TB数据所需的服务器数量了。
根据这个目标，每秒需要处理2336Mb的数据，除以240，约等于10台服务器。
如果消息还需要额外复制两份，那么总的服务器台数还要乘以3，即30台。

总结

与其盲目上马一套Kafka环境然后事后费力调整，不如在一开始就思考好实际场景下业务所需的集群环境。在考量部署方案时需要通盘考虑，不能仅从单个维度上进行评估。

参考

Linux内核模型架构
Kafka核心技术与实战

微信关注我们

原文链接：https://yq.aliyun.com/articles/739971

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Serverless 实战——使用 Rendertron 搭建 Headless Chrome 渲染解决方案

为什么需要 Rendertron？传统的 Web 页面，通常是服务端渲染的，而随着 SPA（Single-Page Application）尤其是 React、Vue、Angular 为代表的前端框架的流行，越来越多的 Web App 使用的是客户端渲染。使用客户端渲染有着诸多优势，比如节省后端资源、局部刷新、前后端分离等等，但也带来了一些挑战，比如本文要解决的 SEO 问题。对于服务端渲染的页面，服务端可以直接将内容通过 HTML 的形式返回，搜索引擎爬虫可以轻易的获取页面内容，而对于客户端渲染的应用，客户端必须执行服务器返回的 Javascript 才能得到正确的网页内容。目前，除 Google、Bing 支持 Javascript 外（也会有一些限制），其他的大部分搜索引擎都不支持 Javascript，也就无法获取正确的

2019-12-18

1228

导读世界上只有两种物质：高效率和低效率；世界上只有两种人：高效率的人和低效率的人。——萧伯纳同理，世界上只有两种代码：高效代码和低效代码；世界上只有两种人：编写高效代码的人和编写低效代码的人。如何编写高效代码，是每个研发团队都面临的一个重大问题。所以，作者根据实际经验，查阅了大量资料，总结了"Java高效代码50例"，让每一个Java程序员都能编写出"高效代码"。 1.常量&变量 1.1.直接赋值常量值，禁止声明新对象直接赋值常量值，只是创建了一个对象引用，而这个对象引用指向常量值。反例： Long i = new Long(1L); String s = new String("abc"); 正例： Long i = 1L; String s = "abc"; 1.2.当成员变量值无需改变时，尽量定义为静态常量在类的每个对象实例中，每个成员变量都有一份副本，而成员静态常量只有一份实例。反例： public class HttpConnection { private final long timeout = 5L; ... } 正例： public class H...

2019-12-19

573

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。