BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析-低调大师

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

2019-06-18 745

分布式数据挖掘为何受到如此热议呢？在互联网发展中发挥着怎么样的作用呢？

大数据挖掘迅速地接纳了来源于其它科技领域的思想观念，涉及最优化方法、进化计算方法、信息论、数字信号处理、数据可视化和文本检索。大数据挖掘的任务包括是关联分析、聚类分析、分类管理、预测分析、时序模式和偏差具体分析。

BR-MLP（波若数据挖掘平台）是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术，支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。

1.数据源
提供数据集载入方案和方案中数据保存到平台中的功能，

2.数据预处理
对数据进行清洗、类型转化、值填充等，使数据内容和结构更规整，以便后续组件处理，其包含:去除重复、随机采样、分层采样……

3特征工程
对预处理好的规整数据进行更深入的处理，主要有尺度变换、异常平滑、特征抽取和降维等。

特征离散、特征抽取……是其显著特征

4统计分析
对数据统计分析，了解数据的整体或详情、分布、相关性和适配度检验等，使我们在做数据预处理和特征工程时，心中有数，知道哪些因素对我们最终的结果影响比较大等。

5分类与回归
构建分类或回归模型，创建的模型应用于后续的业务数据（应用数据）的预测/分类、回归等。BR-MLP包括决策树分类、决策树回、朴素贝叶斯、随机森林分类……等12个算法。

6聚类
提供无监督的聚类机器学习方法，包括文本主题聚类等，可单独使用，进行自动分类，也可以和分类算法结合使用，先用聚类得到类别，再将得到的类别作为分类建模中的标签，构建分类模型。

7协同过滤
BR-MLP支持协同过滤，可用于分辨某特定顾客可能感兴趣的东西，这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性，在全球互联网领域炙手可热。

8关联分析
用于分析事物之间的关联性，包括人与人之间的关联性，物与物之间的关联性，最经典的是尿布与啤酒的案例，在购物篮分析中很常用。

9深度学习
通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

10模型应用
选择已经建好的算法模型，将选出的模型应用于业务层面。

11可视化
将分类/回归、聚类模型应用结果进行图形化展现。

微信关注我们

原文链接：https://yq.aliyun.com/articles/705853

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

DataSimba系列之流式计算

你是否有过这样的念头：如果能立刻马上看到我想要的数据，我就能更好地决策？市场变化越来越快，企业对于数据及时性的需求，也越来越大，另一方面，当下数据容量呈几何倍暴增，数据的价值在其产生之后，也将随着时间的流逝，逐渐降低。因此，我们最好在事件发生之后，迅速对其进行有效处理，实时，快速地处理新产生的数据，帮助企业快速地进行异常管理和有效决策，而不是待数据存储在一起之后，再进行批量处理。一:sparkStreaming+hbase整合应用，助力企业实时运营监控对于不作更新的数据，可以通过datax将数据从业务系统数据库同步到hive中，进行离线计算；但对于有大量更新的数据，就不能采用以上的做法了，因为hive不能很好的支持实时更新操作。我们的做法是使用sparkStreaming+HBase做数据存储与去重，然后以封装的HBase工具类为支撑，进行数据的实时监控。实现原理： Apache Spark是专为大规模数据处理而设计的分布式内存计算引擎，特点是灵活快速。HBase是一个分布式的、面向列的开源数据库，适用于海量数据的存储与实时写入。HBase工具类是奇点云大数据团队针对Spark...

2019-06-17

857

数据挖掘工具是使用大数据挖掘技术从互联网的海量数据中发现、采集并挖掘出有有价值数据一种软件。利用特定的技术，例如：Hadoop、Spark……实现对互联网非机构化的大数据进行挖掘并获得正确、有价值数据的一种快速、便捷的方法。 RapidMiner 作为数据挖掘工具， RapidMiner是一款免费预测性分析和数据挖掘软件工具，具有丰富数据挖掘分析和算法功能，过程简单，强大和直观。可以用简单脚本语言自动进行大规模进程，拥有图形用户界面的互动原型。 KNIME 一款开源的数据挖掘工具，采用用Java编写的，并且基于Eclipse，集成各种开源项目。并利用其扩展机制来添加提供附加功能的插件。拥有整合文本挖掘，图像挖掘以及时间序列分析的方法。 KNIME兼容多种形式，例如：图像、文本……，同时支持基于Hadoop的数据格式兼容多种数据分析工具和语言。 NLTK 处理语言数据程序，支持文本分词、词频统计、删除停止词、标记非英语语言文本、从 WordNet 获取同义词、从 WordNet 获取反义词、词干提取…… 同时，NLTK 提供了一个语言处理工具，包括数据挖掘、机器学习、数据抓取、情感分析等...

2019-06-18

976

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。