【原创】elasticsearch入门-低调大师

【原创】elasticsearch入门

2018-09-18 655

示例

示例一：

示例二：

示例三：

示例四：

ES介绍

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。

安装过程

wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.0.tar.gz  
tar -xvzf elasticsearch-6.4.0.tar.gz  
cd elasticsearch-6.4.0/bin
./elasticsearch -d

修改配置文件

# ---------------------------------- Cluster -----------------------------------
#
# Use a descriptive name for your cluster:
#
cluster.name: my-application
# ---------------------------------- Network -----------------------------------
#
# Set the bind address to a specific IP (IPv4 or IPv6):
#
network.host: 192.168.141.129
#
# Set a custom port for HTTP:
#
http.port: 9200
#
# For more information, consult the network module documentation.
#

再次启动报错：

[2018-09-13T09:29:43,060][INFO ][o.e.b.BootstrapChecks    ] [7hyiUY2] bound or publishing to a non-loopback address, enforcing bootstrap checks
ERROR: [2] bootstrap checks failed
[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
[2]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

解决方案：

vi /etc/security/limits.conf # 添加两行行配置，并重连SSH
elasticsearch soft nofile 65536
elasticsearch hard nofile 65537

vi /etc/sysctl.conf # 添加一行配置
vm.max_map_count=262144
sysctl -p

页面访问

地址：
http://192.168.141.129:9200/?pretty
显示：

ES架构

基础概念

https://www.cnblogs.com/xiaochina/p/6855591.html

接近实时（NRT）
Elasticsearch 是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个很小的延迟（通常是 1 秒）
集群(Cluster)
代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。
节点(Node)
节点是一个单独运行的elasticsearch实例，它属于一个集群。默认情况下，elasticsearch中的每个节点都加入名为“elasticsearch”的集群。每个节点都可以在elasticsearch中使用自己的elasticsearch.yml，它们可以对内存和资源分配有不同的设置。
数据节点(Data Node)
数据节点索引文档并对索引文档执行搜索。建议添加更多的数据节点，以提高性能或扩展集群。通过在elasticsearch中设置这些属性，可以使节点成为一个数据节点。elasticsearch.yml配置
管理节点(Master Node)
主节点负责集群的管理。对于大型集群，建议有三个专用的主节点(一个主节点和两个备份节点)，它们只作为主节点，不存储索引或执行搜索。在elasticsearch.yml配置声明节点为主节点:
路由节点亦称负载均衡节点(Routing Node or load balancer node)
这些节点不扮演主或数据节点的角色，但只需执行负载平衡，或为搜索请求路由，或将文档编入适当的节点。这对于高容量搜索或索引操作非常有用。
索引(Index)
Elasticsearch索引是一组具有共同特征的文档集合。每个索引(index)包含多个类型(type)，这些类型依次包含多个文档(document)，每个文档包含多个字段(Fields)。在Elasticsearch中索引由多个JSON文档组成。在Elasticsearch集群中可以有多个索引。
类型(Type)[Deprecated]
类型用于在索引中提供一个逻辑分区。它基本上表示一类类似类型的文档。一个索引可以有多个类型，我们可以根据上下文来解除它们。
文档(Document)。
Elasticsearch文档是一个存储在索引中的JSON文档。每个文档都有一个类型和对应的ID，这是惟一的。
映射(Mapping)
映射用于映射文档的每个field及其对应的数据类型，例如字符串、整数、浮点数、双精度数、日期等等。在索引创建过程中，elasticsearch会自动创建一个针对fields的映射，并且根据特定的需求类型，可以很容易地查询或修改这些映射。
分片(Shard)
代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。
副本(Replica)
代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。
river
代表es的一个数据源，也是其它存储方式（如：数据库）同步数据到es的一个方法。它是以插件方式存在的一个es服务，通过读取river中的数据并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。
gateway
代表es索引快照的存储方式，es默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储，当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway，有本地文件系统（默认），分布式文件系统，Hadoop的HDFS和amazon的s3云存储服务。

GET /_cat	命令解释
/_cluster/stats	查看集群统计信息
/_cat/allocation
/_cat/shards
/_cat/shards/{index}
/_cat/master
/_cat/nodes	查看集群的节点列表
/_cat/tasks
/_cat/indices	查看所有索引
/_cat/indices/{index}	查看指定索引
/_cat/segments
/_cat/segments/{index}
/_cat/count
/_cat/count/{index}
/_cat/recovery
/_cat/recovery/{index}
/_cat/health	查看集群的健康状况
/_cat/pending_tasks
/_cat/aliases
/_cat/aliases/{alias}
/_cat/thread_pool
/_cat/thread_pool/{thread_pools}
/_cat/plugins
/_cat/fielddata
/_cat/fielddata/{fields}
/_cat/nodeattrs
/_cat/repositories
/_cat/snapshots/{repository}
/_cat/templates
/_stats	查看所有的索引状态

v是用来要求在结果中返回表头
pretty 格式化json
help 帮助

状态值说明

Green - everything is good (cluster is fully functional)，即最佳状态
Yellow - all data is available but some replicas are not yet allocated (cluster is fully functional)，即数据和集群可用，但是集群的备份有的是坏的
Red - some data is not available for whatever reason (cluster is partially functional)，即数据和集群都不可用

索引管理

创建索引

直接创建

PUT twitter

settings

PUT twitter
{
    "settings" : {
        "index" : {
            "number_of_shards" : 3, 
            "number_of_replicas" : 2 
        }
    }
}

mappings

PUT twitter
{
    "settings" : {
        "index" : {
            "number_of_shards" : 3, 
            "number_of_replicas" : 2 
        }
    },
   "mappings" : {
        "_doc" : {
            "properties" : {
                "field1" : { "type" : "text" }
            }
        }
    }
}

查看索引

GET /twitter/
GET /twitter/_search

删除索引

DELETE /twitter

映射管理

Core Datatypes     核心类型
string
    text and keyword 
Numeric datatypes
    long, integer, short, byte, double, float, half_float, scaled_float 
Date datatype
    date 
Boolean datatype
    boolean 
Binary datatype
    binary 
Range datatypes     范围
    integer_range, float_range, long_range, double_range, date_range

Complex datatypes 复合类型
Array datatype
    数组就是多值，不需要专门的类型
Object datatype
    object ：表示值为一个JSON 对象 
Nested datatype
    nested：for arrays of JSON objects（表示值为JSON对象数组 ）
    
Geo datatypes  地理数据类型
Geo-point datatype
    geo_point： for lat/lon points  （经纬坐标点）
Geo-Shape datatype
    geo_shape： for complex shapes like polygons （形状表示）
    
Specialised datatypes 特别的类型
IP datatype
    ip： for IPv4 and IPv6 addresses 
Completion datatype
    completion： to provide auto-complete suggestions 
Token count datatype
    token_count： to count the number of tokens in a string 
mapper-murmur3
    murmur3： to compute hashes of values at index-time and store them in the index 
Percolator type
    Accepts queries from the query-dsl 
join datatype
    Defines parent/child relation for documents within the same index

文档管理

新建

指定id
PUT twitter/_doc/1
{
    "id": 1,
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

自动生成id
POST twitter/_doc/
{
    "id": 1,
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

查看

HEAD twitter/_doc/11
GET twitter/_doc/1

更新

PUT twitter/_doc/1
{
    "id": 1,
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

删除

DELETE twitter/_doc/1

批处理

POST _bulk
{ "index" : { "_index" : "test", "_type" : "_doc", "_id" : "1" } }
{ "field1" : "value1" }
{ "delete" : { "_index" : "test", "_type" : "_doc", "_id" : "2" } }
{ "create" : { "_index" : "test", "_type" : "_doc", "_id" : "3" } }
{ "field1" : "value3" }
{ "update" : {"_id" : "1", "_type" : "_doc", "_index" : "test"} }
{ "doc" : {"field2" : "value2"} }

index 无论是否存在，都会成功
create 存在会提示
update 不存在会提示
delete 不存在会提示

结构化搜索

精确值查找term

POST /my_store/_doc/_bulk
{ "index": { "_id": 1 }}
{ "price" : 10, "productID" : "XHDK-A-1293-#fJ3" }
{ "index": { "_id": 2 }}
{ "price" : 20, "productID" : "KDKE-B-9947-#kL5" }
{ "index": { "_id": 3 }}
{ "price" : 30, "productID" : "JODL-X-1937-#pV7" }
{ "index": { "_id": 4 }}
{ "price" : 30, "productID" : "QQPX-R-3956-#aD8" }

一个字段查询

GET my_store/_doc/_search
{
  "query": {
    "term": {
      "price": "30"
    }
  }
}

组合过滤

GET my_store/_doc/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "term": {
            "price": 20
          }
        },
        {
          "term": {
            "productID": "XHDK-A-1293-#fJ3"
          }
        }
      ],
      "must_not": {
        "term": {
          "price": 30
        }
      }
    }
  }
}

PUT my_store
{
    "mappings" : {
        "_doc" : {
            "properties" : {
                "productID" : {
                    "type" : "keyword"
                }
            }
        }
    }
}

GET /my_store/_analyze
{
  "field": "productID",
  "text": "XHDK-A-1293-#fJ3"
}

高亮

GET my_store/_doc/_search
{
  "query": {
    "match": {
      "productID": "b"
    }
  },
  "highlight": {
      "pre_tags" : ["<span class='hlt'>"],
      "post_tags" : ["</span>"],
      "title": {},
      "content": {}
    }
  }
}

全文搜索

POST /my_index/my_type/_bulk
{ "index": { "_id": 1 }}
{ "title": "The quick brown fox" }
{ "index": { "_id": 2 }}
{ "title": "The quick brown fox jumps over the lazy dog" }
{ "index": { "_id": 3 }}
{ "title": "The quick brown fox jumps over the quick dog" }
{ "index": { "_id": 4 }}
{ "title": "Brown fox brown dog" }

匹配查询

GET /my_index/my_type/_search
{
    "query": {
        "match": {
            "title": "QUICK!"
        }
    }
}

GET /my_index/_analyze
{
  "field": "title",
  "text": "QUICK!"
}

组合查询

GET /my_index/my_type/_search
{
  "query": {
    "bool": {
      "must":     { "match": { "title": "quick" }},
      "must_not": { "match": { "title": "lazy"  }},
      "should": [
                  { "match": { "title": "brown" }},
                  { "match": { "title": "dog"   }}
      ]
    }
  }
}

分词

character filter ：字符过滤器，对文本进行字符过滤处理，如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器，多个按配置顺序依次进行处理。
tokenizer：分词器，对文本进行分词。一个analyzer必需且只可包含一个tokenizer。
token filter：词项过滤器，对tokenizer分出的词进行过滤处理。如转小写、停用词处理、同义词处理。一个analyzer可包含0个或多个词项过滤器，按配置顺序进行过滤。

测试分词器

POST _analyze
{
  "tokenizer": "standard",
  "char_filter":  [ "html_strip" ],
  "filter":  [ "lowercase", "asciifolding" ],
  "text":      "Is this déja vu?"
}

POST _analyze
{
  "analyzer": "ik_smart",
  "text": "微知"
}

内置的分析器

Standard Analyzer
Simple Analyzer
Whitespace Analyzer
Stop Analyzer
Keyword Analyzer
Pattern Analyzer
Language Analyzers
Fingerprint Analyzer
Custom analyzers

内建的character filter

HTML Strip Character Filter
　　html_strip ：过滤html标签，解码HTML entities like &.
Mapping Character Filter
　　mapping ：用指定的字符串替换文本中的某字符串。
Pattern Replace Character Filter
　　pattern_replace ：进行正则表达式替换。

内建的Tokenizer

Standard Tokenizer
Letter Tokenizer
Lowercase Tokenizer
Whitespace Tokenizer
UAX URL Email Tokenizer
Classic Tokenizer
Thai Tokenizer
NGram Tokenizer
Edge NGram Tokenizer
Keyword Tokenizer
Pattern Tokenizer
Simple Pattern Tokenizer
Simple Pattern Split Tokenizer
Path Hierarchy Tokenizer

示例

PUT customer
{
  "mappings": {
    "_doc": {
      "properties": {
        "customerName": {
          "type": "text",
          "analyzer": "ik_smart",
          "search_analyzer": "ik_smart"
        },
        "companyId": {
          "type": "text"
        }
      }
    }
  }
}


POST /customer/_doc/_bulk
{ "index": { "_id": 1 }}
{ "companyId": "55", "customerName": "微知（上海）服务外包有限公司" }
{ "index": { "_id": 2 }}
{ "companyId": "55", "customerName": "上海微盟" }
{ "index": { "_id": 3 }}
{ "companyId": "55", "customerName": "上海知道广告有限公司" }
{ "index": { "_id": 4 }}
{ "companyId": "55", "customerName": "微鲸科技有限公司" }
{ "index": { "_id": 5}}
{ "companyId": "55", "customerName": "北京微尘大业电子商务" }
{ "index": { "_id": 6}}
{ "companyId": "55", "customerName": "福建微冲企业咨询有限公司" }
{ "index": { "_id": 7}}
{ "companyId": "55", "customerName": "上海知盛企业管理咨询有限公司" }

GET /customer/_doc/_search
{
  "query": {
    "match": {
      "customerName": "知道"
    }
  }
}

GET /customer/_doc/_search
{
  "query": {
    "match": {
      "customerName": "微知"
    }
  }
}

标题	链接
elasticsearch系列一：elasticsearch（ES简介、安装&配置、集成Ikanalyzer）	https://www.cnblogs.com/leeSmall/p/9189078.html
elasticsearch系列二：索引详解（快速入门、索引管理、映射详解、索引别名）	https://www.cnblogs.com/leeSmall/p/9193476.html
elasticsearch系列三：索引详解（分词器、文档管理、路由详解（集群））	https://www.cnblogs.com/leeSmall/p/9195782.html
elasticsearch系列四：搜索详解（搜索API、Query DSL）	https://www.cnblogs.com/leeSmall/p/9206641.html
elasticsearch系列五：搜索详解（查询建议介绍、Suggester 介绍）	https://www.cnblogs.com/leeSmall/p/9206646.html
elasticsearch系列六：聚合分析（聚合分析简介、指标聚合、桶聚合）	https://www.cnblogs.com/leeSmall/p/9215909.html
elasticsearch系列七：ES Java客户端-Elasticsearch Java client	https://www.cnblogs.com/leeSmall/p/9218779.html
elasticsearch系列八：ES 集群管理（集群规划、集群搭建、集群管理）	https://www.cnblogs.com/leeSmall/p/9220535.html

【大数据安全】Apache Kylin 安全配置(Kerberos)

1. 概述本文首先会简单介绍Kylin的安装配置，然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin。 Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 1.2 环境说明 CDH版本：5.11.2 Linux版本：7.4.1708 Docker版本：Docker version 18.06.0-ce JDK版本：1.8 操作用户：root 2.Kylin安装配置 2.1 安装此处以Kylin 2.0.0版本为例。社区版Kylin地址：https://archive.apache.org/dist/kylin/ [root@node-3 ~]# cd /usr/local/src/ [root@node-3 src]# wget https://archive.apache.org/dist/kylin/apache-kylin-2.0.0/apache-kylin-2.0.0-bin-c...

2018-09-18

821

本文参考地址为:http://www.mamicode.com/info-detail-2243059.html1.安装wget http://archive.apache.org/dist/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz2.解压至/usr/local目录下tar -xzvf zookeeper-3.4.6.tar.gz -C /usr/local3.拷贝zookeeper配置文件cd zookeeper-3.4.6cd confcp zoo_sample.cfg zoo.cfg4.编辑zoo.cfgvim zoo.cfg#zookeeper的数据存放地址和日志地址dataDir=/home/hadoop/usr/local/zookeeper/data #目录自己创建，同下dataLogDir=/home/hadoop/usr/local/zookeeper/logsserver.1=192.168.126:2888:3888*注：server.id=hostname:port:port。第一个端口用于集合体中的 fo...

2018-09-18

638

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。