Apache Spark机器学习.2.1 访问和加载数据集
摘要
Spark机器学习的数据准备
机器学习从业者和数据科学家时常耗费70%或80%的时间为机器学习项目准备数据。数据准备可能是很艰辛的工作,但是它影响到接下来的各方面工作,因此是非常必要和极其重要的。所以,在本章中,我们将讨论机器学习中所有必要的数据准备方面的内容,通常包括数据获取、数据清洗、数据集连接,再到特征开发,从而让我们为基于Spark平台构建机器学习模型准备好数据集。具体而言,我们将讨论前面提到的以下6个数据准备任务,然后在针对复用性和自动化的讨论中结束本章:
访问和加载数据集
开放可用的机器学习数据集
将数据集加载到Spark
使用Spark进行数据探索和可视化
数据清洗
处理数据缺失与不完整
基于Spark的数据清洗
数据清洗变得容易
一致性匹配
处理一致性问题
基于Spark的数据匹配
获得更好的数据匹配效果
数据重组
数据重组任务
基于Spar

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
《Flume日志收集与MapReduce模式》一3.1 内存通道
本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章,第3.1节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看 3.1 内存通道 见名知意,内存通道指的是事件存储在内存中的通道。由于通常情况下,内存的速度要比磁盘快几个数量级,因此事件的接收速度也会更快,这降低了对硬件的需求量。使用这种通道的弊端在于代理失败(如硬件问题、断电、JVM崩溃、Flume重启等)会导致数据丢失。根据使用场景的不同,这可能是非常不错的解决方案。系统度量通常属于这一类,因为少量的数据丢失并不会造成什么影响。然而,如果事件表示的是网站的购买情况,那么内存通道就是一种非常差劲的选择了。要想使用内存通道,请将通道的type参
- 下一篇
《Flume日志收集与MapReduce模式》一3.2 文件通道
本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章,第3.2节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看 3.2 文件通道 文件通道指的是将事件存储到代理本地文件系统中的通道。虽然要比内存通道慢一些,不过它却提供了持久化的存储路径,可以应对大多数情况,它应该用在数据流中不允许出现缺口的场合。这种持久化能力是由Write Ahead Log(WAL)以及一个或多个文件存储目录联合提供的。WAL用于以一种原子且安全的方式追踪来自于通道的所有输入与输出。通过这种方式,如果代理重启,那么WAL可以重放,从而确保在清理本地文件系统的数据存储前进入到通道中的所有事件都会被写出。此外,如果数据处理策
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题