spark 将DataFrame所有的列类型改为double
我的原创地址:https://dongkelun.com/2018/04/27/dfChangeAllColDatatypes/
前言
由于spark机器学习要求输入的DataFrame类型为数值类型,所以如果原始数据读进来的列为string类型,需要一一转化,而如果列很多的情况下一个转化很麻烦,所以能不能一个循环或者一个函数去解决呢。
1、单列转化方法
import org.apache.spark.sql.types._ val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10")) val df = spark.createDataFrame(data).toDF("col1", "col2", "col3", "col4", "col5") import org.apache.spark.sql.functions._ df.select(col("col1").cast(DoubleType)).show()
+----+ |col1| +----+ | 1.0| | 6.0| +----+
2、循环转变
然后就想能不能用这个方法循环把每一列转成double,但没想到怎么实现,可以用withColumn循环实现。
val colNames = df.columns var df1 = df for (colName <- colNames) { df1 = df1.withColumn(colName, col(colName).cast(DoubleType)) } df1.show()
+----+----+----+----+----+ |col1|col2|col3|col4|col5| +----+----+----+----+----+ | 1.0| 2.0| 3.0| 4.0| 5.0| | 6.0| 7.0| 8.0| 9.0|10.0| +----+----+----+----+----+
3、通过:_*
但是上面这个方法效率比较低,然后问了一下别人,发现scala 有array:_*这样传参这种语法,而df的select方法也支持这样传,于是最终可以按下面的这样写
val cols = colNames.map(f => col(f).cast(DoubleType)) df.select(cols: _*).show()
+----+----+----+----+----+ |col1|col2|col3|col4|col5| +----+----+----+----+----+ | 1.0| 2.0| 3.0| 4.0| 5.0| | 6.0| 7.0| 8.0| 9.0|10.0| +----+----+----+----+----+
这样就可以很方便的查询指定多列和转变指定列的类型了:
val name = "col1,col3,col5" df.select(name.split(",").map(name => col(name)): _*).show() df.select(name.split(",").map(name => col(name).cast(DoubleType)): _*).show()
+----+----+----+ |col1|col3|col5| +----+----+----+ | 1| 3| 5| | 6| 8| 10| +----+----+----+ +----+----+----+ |col1|col3|col5| +----+----+----+ | 1.0| 3.0| 5.0| | 6.0| 8.0|10.0| +----+----+----+
附完整代码:
package com.dkl.leanring.spark.test import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types._ import org.apache.spark.sql.DataFrame object DfDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("DfDemo").master("local").getOrCreate() import org.apache.spark.sql.types._ val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10")) val df = spark.createDataFrame(data).toDF("col1", "col2", "col3", "col4", "col5") import org.apache.spark.sql.functions._ df.select(col("col1").cast(DoubleType)).show() val colNames = df.columns var df1 = df for (colName <- colNames) { df1 = df1.withColumn(colName, col(colName).cast(DoubleType)) } df1.show() val cols = colNames.map(f => col(f).cast(DoubleType)) df.select(cols: _*).show() val name = "col1,col3,col5" df.select(name.split(",").map(name => col(name)): _*).show() df.select(name.split(",").map(name => col(name).cast(DoubleType)): _*).show() }
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
四大行的CIO们如何看待大数据
中国建设银行 中国建设银行信息技术管理部资深经理林磊明 1、银行压力越来越大 从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大行的利润增长基本上趋近于零增长。在这样的情况下,我们怎样通过IT的引领提升传统银行的竞争力,这是摆在我们面前的一个很重要的课题。 2、过去十多年期间,银行业务出现两个拐点 大数据怎么样能够在智慧银行的方向上起到更大的作用呢? 通过银行的历程佐证这样一个观点。过去十多年期间银行基本上有两个拐点: 第一个拐点就是发生在互联网银行慢慢取代柜员,IT支持从支持几万十几万的柜员到支持面向所有的互联网客户,这里面发生了一个根本性的变化,无论是服务的形态还是IT的支撑,都发生了很根本的变化,这是移动和云要在里面发挥作用。 下一个拐点是什么?银行要从原来做的账务性的、交易性的处理转向能够渗透到经济生活的方方面面,这是一个场景化,如果抓不住这个拐点,银行就要被互联网金融颠覆或者管道化。 3、三大互联网渠道已建立,具备大数据基础 这几年银行三大互联网渠道已经建立: 手机银行,已达到1.8亿多 网上银行,我们有2亿 微信银行,它占的客服服务总...
- 下一篇
spark 统计每天新增用户数
版权声明:本文由董可伦首发于https://dongkelun.com,非商业转载请注明作者及原创出处。商业转载请联系作者本人。 https://blog.csdn.net/dkl12/article/details/80256688 我的原创地址:https://dongkelun.com/2018/04/11/sparkNewUV/ 前言 本文源自一位群友的一道美团面试题,解题思路(基于倒排索引)和代码都是这位大佬(相对于尚处于小白阶段的我)写的,我只是在基于倒排索引的基础上帮忙想出了最后一步思路,感觉这个解题思路不错,值得记录一下。 1、原始数据 2017-01-01 a 2017-01-01 b 2017-01-01 c 2017-01-02 a 2017-01-02 b 2017-01-02 d 2017-01-03 b 2017-01-03 e 2017-01-03 f 根据数据可以看出我们要求的结果为: 2017-01-01 新增三个用户(a,b,c) 2017-01-02 新增一个用户(d) 2017-01-03 新增两个用户(e,f) 2、解题思路 2.1 对原始数据...
相关文章
文章评论
共有0条评论来说两句吧...