Spark MLlib知识点学习整理-低调大师

Spark MLlib知识点学习整理

2015-12-05 657

MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。

操作步骤:

1、用字符串RDD来表示信息。

2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。

3、对向量RDD调用分类算法，返回一个模型对象，可以使用该对象对新的数据点进行分类。

4、使用MLlib的评估函数在测试数据集上评估模型。

机器学习基础：

机器学习算法尝试根据训练数据使得表示算法行为的数学目标最大化，并以此来进行预测或作出决定。包括分类、回归、聚类，每种都有不一样的目标。所有的学习算法都需要定义每个数据点的特征集，也就是传给学习函数的值。

更重要的在于如何去正确的定义特征。例如：在产品推荐的任务中，仅仅机上一个额外的特征（推荐给用户的书籍也可能取决于用户看过的电影），就有可能极大地改进结果。当数据已成为特征向量的形式后，大多数机器学习算法会根据这些向量优化一个定义好的数学模型。然后算法会再运行结束时返回一个代表学习决定的模型。

MLlib数据类型

1、Vector

一个数学向量。MLlib既支持稠密向量也支持稀疏向量。前者表示向量的每一位都存储下来，后者则存储非零位以节省空间。

稠密向量：把所有唯独的值存放在一个浮点整数组中。

稀疏向量只把各维度中的非零值存储下来。当最多只有10%的元素为非零元素时，通常更倾向于使用稀疏向量。

spark中创建向量的方式有

import org.apache.spark.mllib.linalg.Vectors

//创建稠密向量<1.0,2.0,3.0>;Vectors.dense接收一串值或一个数组
val denseVec1 = Vectors.dense(1.0,2.0,3.0))
val denseVec2 = Vectors.dense(Array(1.0,2.0,3.0))

//创建稀疏向量<1.0,0.0,2.0,0.0>
向量的维度（4） 以及非零位的位置和对应的值
val sparseVec1 = Vectors.sparse(4,Array(0,2),Array(1.0,2.0))

2、LabeledPoint

诸如分类和回归的算法这样的监督学习算法中，LabeledPoint用来表示带标签的数据点。它包含一个特征向量与一个标签（由一个浮点数表示），位置在mllib.regression包中。

3、Rating

用户对一个产品的评分，在mllib.recomendation包中，用于产品推荐。

4、各种Model类

每个Model都是训练算法的结果，一般有一个predict()方法可以用来对新的数据点或数据点组成的RDD应用该模型进行预测。

特征转化：

TF-IDF:词频，逆文档频率是一种用来从文本文档中生成特征向量的简单方法。它为文档中的每个词计算两个统计值：一个是词频(TF)，也就是每个词在文档中出现的次数，另一个是逆文档频率(IDF)，用来衡量一个词语特定文档的相关度。

MLlib有两个算法可以用来计算TF-IDF:HashTF和TF

HashTF从一个文档中计算出给定大小的词频向量。为了将词和向量顺序对应起来，所以使用了哈希。HashingTF使用每个单词对所需向量的长度S取模得出的哈希值，把所有单词映射到一个0到S-1之间的数字上。由此可以保证生成一个S维的向量。随后当构建好词频向量后，使用IDF来计算逆文档频率，然后将它们与词频相乘计算TF-IDF。

MLlib统计

1、Statistics.colStats(rdd)

计算由向量组成的RDD的统计性综述，保存着向量集合中每列的最大值、最小值、平均值和方差。

2、statistics.corr(rdd,method_

计算由向量组成的RDD中的列间的相关矩阵，使用皮卡森相关或斯皮尔曼相关中的一种。

3、statistics.corr(rdd1,rdd2,method)

计算两个由浮点值组成的RDD的相关矩阵。

4、Statistics.chiSqTest(rdd)

计算由LabeledPoint对象组成的RDD中每个特征与标签的皮卡森独立性测试结果。返回一个ChiSqTestResult对象，其中有p值、测试统计及每个特征的自由度。

分类与回归

监督试学习指算法尝试使用有标签的训练数据（已知结果的数据点）根据对象的特征预测的结果。在分类中，预测出的变量是离散的（就是一个在有限集中的值，叫做类别）。比如，分类可能是将邮件文卫垃圾邮件和非垃圾邮件，也有可能是文本所使用的语言。在回归中，预测出的是变量是连续的（根据年龄和体重预测一个人的身高）

线性回归：

1、numIteratrions

要运行的迭代次数(默认值：100）

2、stepSize

梯度下降的步长（默认值：1.0）

3、intercept

是否给数据加上一个干扰特征或者偏差特征--也就是一个值始终未1的特征（默认值：false)

4、regParam

Lasso和ridge的正规化参数(默认值：1.0）

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.regression.LinearRegressionWithSGD

val points: RDD[LabeledPoint] = //..
val lr = new LinearRegressiionWithSGD().setNumIterations(200).setIntercept(true)
val model = lr.run(points)
println("weight: %s, intercept: %s".format(model.weights, model.intercept))

逻辑回归

用来寻找一个分割阴性和阳性示例的线性分割平面。在MLlib中，接收一组标签为0或1的LabeledPoint,返回可以预测新点的分类的LogisticRegressionModel对象。

决策树与随机深林

决策树是一个灵活的模型，可以用来进行分类，也可以用来进行回归。决策树以节点树的形式表示，每个节点基于数据的特征作出一个二元决定(比如这个人的年龄是否大于20？），而树的每个叶节点则包含一种预测结果（例如，这个人是不是会买一个产品?)决策树的吸引力在于模型本身容易检查，而且决策树既支持分类的特征，也支持连续的特征。

参考于:《Spark快速大数据分析》

微信关注我们

原文链接：https://yq.aliyun.com/articles/609103

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark on yarn配置项说明与优化整理

配置于spark-default.conf 1. #spark.yarn.applicationMaster.waitTries 5 用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置) 2.spark.yarn.am.waitTime 100s 3.spark.yarn.submit.file.replication 3 应用程序上载到HDFS的复制份数 4.spark.preserve.staging.files false 设置为true，在job结束后，将stage相关的文件保留而不是删除。（一般无需保留，设置成false) 5.spark.yarn.scheduler.heartbeat.interal-ms 5000 Spark application master给YARN ResourceManager发送心跳的时间间隔（ms） 6.spark.yarn.executor.memoryOverhead 1000 此为vm的开销（根据实际情况调整) 7.spark.shu...

2015-12-05

573

该文章来自于阿里巴巴技术协会（ATA）精选文章。摘要：*目前，各种分布式实时计算系统已经在各大互联网公司得到了广泛应用。但是，这些实时系统的计算过程多不进行持久化，如果出现消息丢失等异常情况，通常很难定位问题出现的位置和具体原因，更无法做到主动发现消息丢失。对于广告营销等对消息准确性要求较高的业务场景来说,这种消息丢失的代价通常很高，即便很低的消息丢失率也会造成大量的财物损失。为此，阿里妈妈开发了一套面向分布式实时计算框架storm的实时跟踪校验系统——棱镜系统，棱镜系统实时记录每条消息在storm上的处理路径，主动发现消息丢失情况并报警。本文详细介绍了几位作者在开发棱镜中遇到的困难和相应的解决方案，相信对其他分布式实时计算系统的跟踪校验系统也有一定的借鉴意义。* 项目wiki 1.介绍： 1.1.棱镜项目的背景如今的互联网应用，日均数据处理量越来越大，对计算实时性的要求也越来越高。为此，各种分布式实时计算系统层出不穷，比较有名的有Yahoo S4,storm,puma等。其中storm由于具备易恢复、可扩展、高容错等特性，目前被广泛应用在阿里妈妈营销系统的各条业务线上。不过...

2015-12-08

716

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。