Spark MLlib中的OneHot哑变量实践-低调大师

Spark MLlib中的OneHot哑变量实践

2017-12-03 669

在机器学习中，线性回归和逻辑回归算是最基础入门的算法，很多书籍都把他们作为第一个入门算法进行介绍。除了本身的公式之外，逻辑回归和线性回归还有一些必须要了解的内容。一个很常用的知识点就是虚拟变量（也叫做哑变量）—— 用于表示一些无法直接应用到线性公式中的变量（特征）。

举个例子：

通过身高来预测体重，可以简单的通过一个线性公式来表示，y=ax+b。其中x为身高，y为体重。

现在想要多加一些特征（参数），比如性别。

那么问题来了：如何在一个公式中表示性别呢？

这就是哑变量的作用，它可以通过扩展特征值的个数来表示一些无法被直接数值化的参数。

实例演示

下面是一组数据，第一列表示体重，第二列表示身高，第三列表示性别

体重	身高	性别
60	170	F
45	163	M
80	183	F
70	175	F
52	167	M

现在首先需要把第三列转换成数值类型

体重	身高	性别
60	170	1.0
45	163	0.0
80	183	1.0
70	175	1.0
52	167	0.0

然后使用多维的数据表示这个参数

体重	身高	性别男	性别女
60	170	1.0	0.0
45	163	0.0	1.0
80	183	1.0	0.0
70	175	1.0	0.0
52	167	0.0	1.0

即，性别这一列会通过两列来标识。

一般来说，有多少种情况出现，就会出现多少列。当然会有很多不同的表现形式，比如有的是通过N-1列表示（为空时表示一种情况），有的是通过n列表示。

代码实践

在Spark MLlib中已经提供了处理哑变量的方法，叫做OneHotEncoder，翻译过来叫做一位有效编码，即把可能出现多个值的某列转变成多列，同时只有一列有效。MLlib提供了两个方法一个是StringIndex方法，这个方法可以把不同的字符串转换成数值，比如F``M分别用0.0``1.0表示。还有一个是OneHotEncoder方法，这个方法可以把不同的数值转变成稀疏向量。

什么是稀疏向量

在MLlib中，向量有两种表示方法，一种是密集向量，一种是稀疏向量。

密集向量很好理解，[1,2,3,4]，代表这个向量有四个元素，分别是1 2 3 4
稀疏向量则可以根据下表表示,(3,[4,5,6],[1,2,3])，第一个值代表大小，第二个代表下标数组，第二个是下标对应的值。

然后话说回来，OneHotEncoder方法可以把不同的数值变成稀疏向量，这样一列就相当于可以用多列来表示。

下面我们具体的看一下代码吧！

object encoderTest {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("MovieLensALS-Test").setMaster("local[2]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")
    val sqlContext = new SQLContext(sc)
    val df = sqlContext.createDataFrame(Seq(
      (60, 170,"F","长春"),
      (45, 163,"M","长春"),
      (80, 183,"F","沈阳"),
      (70, 175,"F","大连"),
      (52, 167,"M","哈尔滨")
    )).toDF("weight", "height","sex","address")

    //把性别这一列数值化
    val indexer = new StringIndexer()
      .setInputCol("sex")
      .setOutputCol("sexIndex")
      .fit(df)
    val indexed = indexer.transform(df)
    //对性别这列进行 有效位编码
    val encoder = new OneHotEncoder()
      .setInputCol("sexIndex")
      .setOutputCol("sexVec")
    val encoded = encoder.transform(indexed)
    //对地址这一列数值化
    val indexer1 = new StringIndexer()
      .setInputCol("address")
      .setOutputCol("addressIndex")
      .fit(encoded)
    val indexed1 = indexer1.transform(encoded)
    //对地址进行有效位编码
    val encoder1 = new OneHotEncoder()
      .setInputCol("addressIndex")
      .setOutputCol("addressVec")
    val encoded1 = encoder1.transform(indexed1)

    encoded1.show()
  }
}

输出的内容为：

+------+------+---+-------+--------+-------------+------------+-------------+
|weight|height|sex|address|sexIndex|       sexVec|addressIndex|   addressVec|
+------+------+---+-------+--------+-------------+------------+-------------+
|    60|   170|  F|     长春|     0.0|(1,[0],[1.0])|         0.0|(3,[0],[1.0])|
|    45|   163|  M|     长春|     1.0|    (1,[],[])|         0.0|(3,[0],[1.0])|
|    80|   183|  F|     沈阳|     0.0|(1,[0],[1.0])|         3.0|    (3,[],[])|
|    70|   175|  F|     大连|     0.0|(1,[0],[1.0])|         2.0|(3,[2],[1.0])|
|    52|   167|  M|    哈尔滨|     1.0|    (1,[],[])|         1.0|(3,[1],[1.0])|
+------+------+---+-------+--------+-------------+------------+-------------+

这样有什么用呢？
得到了weight``height``sexVec``addressVec，就相当于得到了一组数据，基于这组数据，就可以来训练线性回归，得到模型后，就可以根据一个人的身高、性别、地址来预测这个人的身高了。

参考

1 MLlib OneHotEncoder官方文档：http://spark.apache.org/docs/1.6.0/ml-features.html#onehotencoder
2 虚拟变量定义：http://wiki.mbalib.com/wiki/%E8%99%9A%E6%8B%9F%E5%8F%98%E9%87%8F

本文转自博客园xingoo的博客，原文链接：Spark MLlib中的OneHot哑变量实践，如需转载请自行联系原博主。

微信关注我们

原文链接：https://yq.aliyun.com/articles/327351

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《Spark MLlib 机器学习实战》1——读后总结

1 概念 2 安装 3 RDD RDD包含两种基本的类型：Transformation和Action。RDD的执行是延迟执行，只有Action算子才会触发任务的执行。宽依赖和窄依赖用于切分任务，如果都是窄依赖，那么就可以最大化的利用并行。常用操作： cache 缓存 cartesian 笛卡尔积 coalesce 重分区 countByValue 分组统计 distinct 去除重复 filter 过滤 flatMap map groupBy 分组 keyBy 增加key reduce 拼接 sortBy 排序 zip 合并压缩 4 基本概念基本的数据结构 MLlib中提供几种向量和矩阵的数据结构： Local vector，本地向量 Labeld point，带标签的向量 Local Matrix，本地矩阵 Distributed matrix，分布式矩阵一般向量或者矩阵都有两个方法，dense表示密集版，sparse表示稀疏版，稀疏版是可以指定下标的。基本的统计方法 colStats 以列统计基本数据，count个数、max最大值、mean最小值、normL1欧几里德距离...

2017-12-03

540

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。