Spark Streaming 实现数据实时统计案例
Spark 是一个基于内存式的分布式计算框架。具有高性能,高效可扩展,容错等优点。 今天讲解一下spark的流计算,其实它也不完全是实时的流计算,算是一种准实时的流计算。 上图讲解 运行环境:需要linux环境下的spark环境 本例用的centOS 6.5x64 因为需要使用TCP协议传输数据,所以需要安装一个nc插件。 安装方式: yum install ncxxx 或者挂载光盘安装 安装后启动nc -lk 9999 端口可以随便指定,最好是1024以上的就可以。 下面贴出代码 java版本的 importjava.util.Arrays; importjava.util.List; importorg.apache.spark.SparkConf; importorg.apache.spark.api.java.function.FlatMapFunction; importorg.apache.spark.api.java.function.Function2; importorg.apache.spark.api.java.function.PairFunction; imp...