Apache Spark机器学习2.6　特征提取-低调大师

Apache Spark机器学习2.6　特征提取

2017-05-01 631

2.6　特征提取

在本节，我们的关注点将转向特征提取，特征提取是根据工作数据集中可用特征或信息扩展为新的特征或者变量。与此同时，我们将讨论一些Apache Spark中特征提取的特殊功能，以及Spark中与特征相关的便捷解决方案。

学完本节之后，我们能够针对各种各样的机器学习项目开发并组织特征。

2.6.1　特征开发的挑战

大部分的大数据机器学习项目通常都不能直接使用大数据集。例如，使用网络日志数据时，它经常以随机文本集形式呈现，显得非常混乱，我们需要从中提取对机器学习有用的信息和特征。例如，我们需要从网络日志数据提取点击次数和展示次数，这样才能使用许多文本挖掘工具和算法。

对于任何特征提取，机器学习从业者需要决定：

采用什么信息，生成哪些特征

使用何种方法和算法

提取什么特征取决于以下几种情况：

数据可用性以及数据特性，比如处理数据缺失情况的难易

微信关注我们

原文链接：https://yq.aliyun.com/articles/84624

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《Spark核心技术与高级应用》——3.2节构建Spark的开发环境

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第3章，第3.2节构建Spark的开发环境，作者于俊　向海　代其锋　马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看 3.2　构建Spark的开发环境无论Windows或Linux操作系统，构建Spark开发环境的思路一致，基于Eclipse或Idea，通过Java、Scala或Python语言进行开发。安装之前需要提前准备好JDK、Scala或Python环境，然后在Eclipse中下载安装Scala或Python插件。3.2.1　准备环境准备环境包括JDK、Scala和Python的安装。1.安装JDK（1）下载JDK（1.7以上版本）下载地址：http://www.oracle.com/technetwork/java/javase/downloads/in

2017-05-01

681

Spark源码分析 – SparkContext中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给TaskScheduler, 然后等待调度, 最终到Executor上执行 val sc = new SparkContext(……) val textFile = sc.textFile("README.md") textFile.filter(line => line.contains("Spark")).count() 这是一个比较简单的没有shuffle的例子, 看看在Executor上是如何被执行的首先这个job只有一个stage, 所以只会产生resultTask 最关键的执行语句, func(context, rdd.iterator(split, context)) 对于这个例子, func就是最终产生结果的count(), 而rdd就是count前最后一个rdd, 即filter产生的rdd 可以看到Spark中rdd的执行, 不是从前往后, 而是从后往前推的, 为什么? ...

2017-05-01

614

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。