《Spark大数据分析实战》——3.3节GraphX
本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.3节GraphX,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看
3.3 GraphX
GraphX是Spark中的一个重要子项目,它利用Spark作为计算引擎,实现了大规模图计算的功能,并提供了类似Pregel的编程接口。GraphX的出现,将Spark生态系统变得更加完善和丰富;同时以其与Spark生态系统其他组件很好的融合,以及强大的图数据处理能力,在工业界得到了广泛的应用。本章主要介绍GraphX的架构、原理和使用方式。
3.3.1 GraphX简介
GraphX是常用图算法在Spark上的并行化实现,同时提供了丰富的API接口。图算法是很多复杂机器学习算法的基础,在单机环境下有很多应用案例。在大数据环境下,图的规模大到一定程度后,单机很