elasticsearch如何安全重启-低调大师

elasticsearch如何安全重启

2017-11-16 786

elasticsearch如何安全重启节点

问题：

elasticsearch集群，有时候可能需要修改配置，增加硬盘，扩展内存等操作，需要对节点进行维护升级。但是业务不能停，如果直接kill掉节点，可能导致数据丢失。而且集群会认为该节点挂掉了，就开始转移数据，当重启之后，它又会恢复数据，如果你当前的数据量已经很大了，这是很耗费机器和网络资源的。

stackoverflow的问题上说得更准确：

I have an ES cluster with 4 nodes:

number_of_replicas: 1
search01 - master: false, data: false
search02 - master: true, data: true
search03 - master: false, data: true
search04 - master: false, data: true

I had to restart search03, and when it came back, it rejoined the cluster no problem, but left 7 unassigned shards laying about.

{
  "cluster_name" : "tweedle",
  "status" : "yellow",
  "timed_out" : false,
  "number_of_nodes" : 4,
  "number_of_data_nodes" : 3,
  "active_primary_shards" : 15,
  "active_shards" : 23,
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 7
}

说的就是说shard 表现出来的征兆是出现unassigned，然后开始初始化，rebalance数据，然后就是大量的等待。

解决方案就是：rolling restart

本文转载官方提供的安全重启集群节点的方法：https://www.elastic.co/guide/cn/elasticsearch/guide/current/_rolling_restarts.html

滚动重启

总有一天你会需要做一次集群的滚动重启——保持集群在线和可操作，但是逐一把节点下线。

常见的原因：Elasticsearch 版本升级，或者服务器自身的一些维护操作（比如操作系统升级或者硬件相关）。不管哪种情况，都要有一种特别的方法来完成一次滚动重启。

正常情况下，Elasticsearch 希望你的数据被完全的复制和均衡的分布。如果你手动关闭了一个节点，集群会立刻发现节点的丢失并开始再平衡。如果节点的维护是短期工作的话，这一点就很烦人了，因为大型分片的再平衡需要花费相当的时间（想想尝试复制 1TB 的数据——即便在高速网络上也是不一般的事情了）。

我们需要的是，告诉 Elasticsearch 推迟再平衡，因为对外部因子影响下的集群状态，我们自己更了解。操作流程如下：

可能的话，停止索引新的数据。虽然不是每次都能真的做到，但是这一步可以帮助提高恢复速度。
禁止分片分配。这一步阻止 Elasticsearch 再平衡缺失的分片，直到你告诉它可以进行了。如果你知道维护窗口会很短，这个主意棒极了。你可以像下面这样禁止分配：
```
PUT /_cluster/settings
{
    "transient" : {
        "cluster.routing.allocation.enable" : "none"
    }
}
```
关闭单个节点。
执行维护/升级。
重启节点，然后确认它加入到集群了。
用如下命令重启分片分配：
```
PUT /_cluster/settings
{
    "transient" : {
        "cluster.routing.allocation.enable" : "all"
    }
}
```
分片再平衡会花一些时间。一直等到集群变成 绿色 状态后再继续。
重复第 2 到 6 步操作剩余节点。
到这步你可以安全的恢复索引了（如果你之前停止了的话），不过等待集群完全均衡后再恢复索引，也会有助于提高处理速度。

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7458374.html ，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/396483

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

在PE下看网卡的IP地址

在PE下装系统，不要忘了备份IP地址，否则碰到“小白”就麻烦了。具体查看IP的方法如下：第一步：在注册表的Local_Machine下加载注册表储巢system(不用管储巢啥意思hive文件而已)，system文件的位置在本地系统盘如下位置，以C盘为例吧：C:\WINDOWS\system32\config 第二步：展开注册表到这个位置：自定义的储巢名\SYSTEM\ControlSet001\Services\Tcpip\Parameters\Interfaces 我的网卡IP在这个项下：{13EDE38E-1664-4511-96AB-1CCA8FE2C1FE}，如图：总来说还是很好操作的。pe下调注册表编辑器直接win+r –> regedit 本文转自wangheyu1 51CTO博客，原文链接：http://blog.51cto.com/wangheyu1/1894721，如需转载请自行联系原作者

2017-11-16

833

摘自：http://unasm.com/2016/11/644/ 在通过/_cluster/state 命令查看es 状态的时候，发现es 处于一个yellow的状态，这个很奇怪，按照官方的解释，就是所有主分片都是处于可用状态，但是有复制分片不可用。为什么有复制分片不可用呢？通过/_cat/shards 查看，发现有从分配处于一个未分配的状态，该命令该出的数据奇怪的地方是，我的集群明明有三台机器，但是shareds里面只给出了两台。 data 2 r STARTED 449516 1.6gb 100.73.22.5 22-5 data 2 p STARTED 449516 1.6gb 100.73.22.6 22-6 data 2 r UNASSIGNED 然后通过查阅官方手册，查询UNASSIGNED 的原因，然后发现很多种可能性的，但是官方的api 的case里面，shards 是直接给出了原因的，但是我的es却没有给出原因。怎么办呢？在api文档里面找答案，发现了/_cluster/reroute 的命令，一看就知道是救星，既然状态是UNASSIGNED，我手动指定该切片...

2017-11-16

643

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。