使用Apache Spark构建实时分析Dashboard
问题描述 电子商务门户(http://www.aaaa.com)希望构建一个实时分析仪表盘,对每分钟发货的订单数量做到可视化,从而优化物流的效率。 解决方案 解决方案之前,先快速看看我们将使用的工具: Apache Spark – 一个通用的大规模数据快速处理引擎。Spark的批处理速度比Hadoop MapReduce快近10倍,而内存中的数据分析速度则快近100倍。 Python – Python是一种广泛使用的高级,通用,解释,动态编程语言。 Kafka – 一个高吞吐量,分布式消息发布订阅系统。 Node.js – 基于事件驱动的I/O服务器端JavaScript环境,运行在V8引擎上。 Socket.io – Socket.IO是一个构建实时Web应用程序的JavaScript库。它支持Web客户端和服务器之间的实时、双向通信。 Highcharts – 网页上交互式JavaScript图表。 CloudxLab – 提供一个真实的基于云的环境,用于练习和学习各种工具。 如何构建数据Pipeline? 下面是数据Pipeline高层架构图 数据Pipeline 实时分析Das...