ElasticSearch Tune for disk usage Translation-低调大师

ElasticSearch Tune for disk usage Translation

2018-10-24 659

1.禁用不需要的属性

index：默认情况下，es会对大多数字段进行索引并添加doc值，以便可以直接索引和聚合它们，但是对于一个必须要使用的字段eg：你需要使用foo这个数值型字段展示直方图，那么这个字段永远不会被过滤掉，那么你可以安全地禁用映射中此字段的索引。

PUT index
{
  "mappings": {
    "_doc": {
      "properties": {
        "foo": {
          "type": "integer",
          "index": false
        }
      }
    }
  }
}

text：该属性在索引中存储了作为文档计分所需要的基本的因素，如果你索引的只是文本而不关注文本分数，那么你可以配置该索引不使用norms参数

PUT index
{
  "mappings": {
    "_doc": {
      "properties": {
        "foo": {
          "type": "text",
          "norms": false
        }
      }
    }
  }
}

text：默认情况下该属性还存储了frequencies和positions两个属性，第一个属性在积分系统中被使用到，第二个在短语查询中使用到。如果你不需要执行短语查询，那么你可以禁用positions属性

PUT index
{
  "mappings": {
    "_doc": {
      "properties": {
        "foo": {
          "type": "text",
          "index_options": "freqs"
        }
      }
    }
  }
}

另外，如果你不关心计分系统，你可以配置es在每个查询中仅仅索引文档。当然你也可以索引这个字段，但是短语查询将会报错并且计分系统会假定每次查询在每个文档中只会出现一次

PUT index
{
  "mappings": {
    "_doc": {
      "properties": {
        "foo": {
          "type": "text",
          "norms": false,
          "index_options": "freqs"
        }
      }
    }
  }
}

2.不要使用默认动态字符串映射

默认的动态字符串索引将字符串属性索引为文本和关键词，如果你只需要使用其中的一种这将会是很大的浪费，典型的id只需要被索引为关键字而body字段只需要被索引为文本属性。

可以通过在字符串上显式映射类型或者配置动态模板为文本或关键词来禁用上面的特性

PUT index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "strings": {
            "match_mapping_type": "string",
            "mapping": {
              "type": "keyword"
            }
          }
        }
      ]
    }
  }
}

3.关注你的分片大小

分片越大在存储数据的时候越高效，通过使用更少的分片数量来创建索引从而减少一个索引中的主分片数量来增大分片大小或者通过使用Sharking API来修改目前已经存在的索引

注意：巨大的分片大小会带来一定的缺点，例如需要很久的恢复时间

4.禁用_all

_all属性会索引一个文档中的所有字段值并且会使用巨大的空间。如果你不需要在同个时间索引所有字段，可以将_all属性禁用

5.禁用_source

_source存储文档的原始json数据，如果你不需要这些可以直接禁用了。然而，像update和reindex这种需要访问_source的APIs将不起作用

6.使用best_compression

_source和存储属性会很容易消耗掉不可忽视的磁盘空间。它们可以使用best_compression：codec 来进一步压缩空间

7.聚焦整合

es中的索引会被存储在一个或多个分片上。每一个分片就是一个Lucene索引并且有一个或多个片段组成，这些片段才是真正磁盘文件。越大的片段意味着越高效以及越能存储数据

_forcemerge API可以减少每个分片上的片段数量来增大每个片段的大小。在大多数情况下，每个分片的片段数量可以通过max_num_segments=1被设置为1

8.收缩索引

Shrink API帮助减少一个索引的分片数量。和上面的force_merge API一起使用可以显著地减少分片和片段的数量

9.在合适的情况下使用最小的数字类型

数值类型的类型选择将会在很大程度上影响磁盘使用率。具体地说，使用整值类型存储整数，在合适的情况下浮点数应该被存储在scaled_float中或更小的类型中。使用float而不是double，使用half_float而不是float将会帮助减少存储空间

10.使用索引排序来共置相同的文档

当es存储_source时，它会一次性压缩多个文档以提高整体压缩率。例如文档之间具有相同字段名称甚至字段值是很普遍的，特别是在基数较低或者遵循zipfian分布的情况下。

默认情况下，文档会被压缩在一起以便能够被添加到索引中，如果你提供索引排序那么它们会被有序压缩。有序并且结构，字段以及值都一样的文档会被压缩在一起以提高压缩率

11.文档字段保持相同的顺序

因为多个文档会被压缩到块中存储，如果字段遵循相同的顺序就更有可能在_source找到相同的长串。

微信关注我们

原文链接：https://yq.aliyun.com/articles/657688

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ElasticSearch Tune for indexing speed Translation

1.使用块查询块查询一般来说比单文档查询表现出更好的性能。为了获取快查询最佳新能，你可以在单节点地单分片上运行一个基准，第一次100个文档，第二次200个文档，然后400个，以此类推。每次基准运行的数量都是两倍于前一次的数量。当索引速度达到峰值的时候你就知道你的数据索引最佳的块文档数量。如果峰值存在于两个数量上，最好还是以最少的数量去索引。块查询数量越大也就意味着在进行同步查询的时候对内存压力也就越大。建议大家每次发送请求时不要超过几十兆尽管有时更大的请求表现地更好。 2.使用多线程发送数据到es中使用单个线程不可能将es集群的索引性能最大化。为了充分利用es集群的资源，你应该使用多线程或进程发送数据。除了最大化集群的资源使用，这也会帮助减少非同步的成本。注意TOO_MANY_REQUESTS(429)返回码（在java客户端中报EsRejectedExecutionException错误），这是告诉你es目前无法跟上你的索引速率。当这种情况发生时，你应该在下次发送请求之前先暂停下。理想情况下，它会自动恢复。跟确定最佳bulk请求数量类似，只有通过测试才能知道最佳的调用者数量...

2018-10-25

548

背景 Elasticsearch作为一个开箱即用的搜索引擎，其丰富的功能和极低的使用门槛吸引着越来越多的公司和用户选择它作为搜索和数据分析的工具。用户在运维Elasticsearch集群时往往会遇到很多难题，具体来说有下面列举的几点：使用方式往往比较粗糙，默认的设置并不适合每一个集群和业务，非精细化的设计将会极大的增加集群隐患；集群出现问题，无法及时定位原因、寻找解决方案，低效的沟通或者解决问题的方式可能会使得问题变得愈发严重； ES提供的监控指标繁杂，指标多，意义不明确，需要一定的专业知识才可以理解，缺乏全局视角；此外，集群潜在的异常无法发现，更不能及时规避风险。随着越来越多的用户选择使用阿里云ES服务来支持搜索和分析业务，上述这些问题越发明显，用户和实例数量的快速增长，让我们没有太多的精力去逐一对接所有用户的问题，这无形中

2018-10-25

689

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。