spark-streaming集成Kafka工程实例【转】
场景模拟 我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益 2)然后,spark-streaming每十秒实时去消费kafka中的订单数据,并以订单类型分组统计收益 3)最后,spark-streaming统计结果实时的存入本地MySQL。 前提条件 安装 1)spark:我使用的yarn-client模式下的spark,环境中集群客户端已经搞定 2)zookeeper:我使用的是这个集群:10.93.21.21:2181,10.93.18.34:2181,10.93.18.35:2181 3)kafka:我使用的是standalone模式:10.93.21.21:9093 4)mysql:10.93.84.53:3306 语言 python:pykafka,pip install pykafka java:spark,spark-streaming 下面开始 1、数据写入kafka kafka写入 我们使用pykafka模拟数据实时写入,代码如下: kafka_producer.py #-*coding...