《Spark大数据分析实战》——3.4节MLlib
本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.4节MLlib,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看
3.4 MLlib
MLlib是构建在Spark上的分布式机器学习库,充分利用了Spark的内存计算和适合迭代型计算的优势,将性能大幅度提升。同时由于Spark算子丰富的表现力,让大规模机器学习的算法开发不再复杂。
3.4.1 MLlib简介
MLlib是一些常用的机器学习算法和库在Spark平台上的实现。MLlib是AMPLab的在研机器学习项目MLBase的底层组件。MLBase是一个机器学习平台,MLI是一个接口层,提供很多结构,MLlib是底层算法实现层,如图3-17所示。
MLlib中包含分类与回归、聚类、协同过滤、数据降维组件以及底层的优化库,如
通过图3-18读者可以对ML