Apache Spark机器学习.1.4 MLlib
1.4 MLlib
MLlib是一个可扩展的Spark机器学习库,包括很多常用的机器学习算法。MLlib内置的算法如下:
以向量和矩阵形式处理数据
基本的统计计算,例如:汇总统计和相关性、简单随机数生成、分层抽样、执行简单的假设检验
分类和回归建模
协同过滤
聚类
降维
特征提取与转换
频繁模式挖掘
开发优化
PMML模型导出
Spark MLlib还处在活跃开发阶段,预计每次新版发布都会有新的算法加入其中。
MLlib符合Apache Spark的计算哲学,简单易用,性能卓越。
MLlib使用依赖于netlib-java和jblas的线性代数包Breeze。netlib-java和jblas依赖于本地Fortran程序。如果节点没有安装gfortran运行库,用户需要自行安装。要是没有自动检测到库,MLlib会报链接错误。
关于MLib用例和详细的使用信息,