BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析
分布式数据挖掘为何受到如此热议呢?在互联网发展中发挥着怎么样的作用呢? 大数据挖掘迅速地接纳了来源于其它科技领域的思想观念,涉及最优化方法、进化计算方法、信息论、数字信号处理、数据可视化和文本检索。大数据挖掘的任务包括是关联分析、聚类分析、分类管理、预测分析、时序模式和偏差具体分析。 BR-MLP(波若数据挖掘平台)是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术,支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。 1.数据源提供数据集载入方案和方案中数据保存到平台中的功能, 2.数据预处理对数据进行清洗、类型转化、值填充等,使数据内容和结构更规整,以便后续组件处理,其包含:去除重复、随机采样、分层采样…… 3特征工程对预处理好的规整数据进行更深入的处理,主要有尺度变换、异常平滑、特征抽取和降维等。 特征离散、特征抽取……是其显著特征 4统计分析对数据统计分析,了解数据的整体或详情、分布、相关性和适配度检验等,使我们在做数据预处理和特征工程时,心中有数,知道哪些因素对我们最终的结果影响比较大等。 5分类与回归构建分类或回归模型...



