在 EMR 中使用 ES-Hadoop
在 EMR 中使用 ES-Hadoop
ES-Hadoop 是 Elasticsearch(ES) 推出的专门用于对接 Hadoop 生态的工具,使得用户可以使用 Mapreduce(MR)、Spark、Hive 等工具处理 ES 上的数据(ES-Hadoop 还包含另外一部分:将 ES 的索引 snapshot 到 HDFS,对于该内容本文暂不讨论)。众所周知,Hadoop 生态的长处是处理大规模数据集,但是其缺点也很明显,就是当用于交互式分析时,查询时延会比较长。而 ES 是这方面的好手,对于很多查询类型,特别是 ad-hoc 查询,基本可以做到秒级。ES-Hadoop 的推出提供了一种组合两者优势的可能性。使用 ES-Hadoop,用户只需要对自己代码做出很小的改动,即可以快速处理存储在 ES 中的数据,并且能够享受到 ES