基于Spark的机器学习实践 (十) - 降维
通过讲解PCA算法的原理,使大家明白降维算法的大致原理,以及能够实现怎么样的功能。结合应用降维算法在分类算法使用之前进行预处理的实践,帮助大家体会算法的作用。
0 相关源码
1 PCA算法及原理概述
1.1 何为降维?
◆ 从高维度变为低维度的过程就是降维
◆ 例如拍照就是把处在三维空间中的人或物从转换到作为二 维平面的
照片中
◆ 降维有线性的、也有非线性的方法。在机器学习中可以简化运算,减少特征量
1.2 PCA算法介绍
◆ PCA算法是一种常用的线性降维算法,算法类似于"投影”
◆ 降维简化了数据集,故可以视为一个压缩过程,在压缩过程中可能;会有信息丢失
◆ PCA除可以用来精简特征,还可以应用在图像处理中
例如基于PCA算法的特征脸法,它可以用来人脸识别
1.3 PCA算法原理简介
◆ PCA是基于K-L变换实现的一种算法
◆ PCA算法在实现上用到
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Java开发者想尝试转行大数据,系统学习方向分享?
前言 相信很多Java开发者都对大数据有一定的了解,随着大数据时代的到来,也有很多Java程序员想要转行大数据。大数据技术中大多数平台使用的都是Java语言,因此,对于大数据技术的学习来说,Java程序员已经占尽了先机。但是很多人对大数据该怎么学,学哪些内容和方向不是很了解,下面就给大家来详细讲一下。 本文分三大方面详细的讲如何学大数据: 大数据方向工作介绍 大数据工程师的技能要求 大数据学习路径 一.大数据方向工作介绍 大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)大数据零基础到项目实战,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,进群获取永久免费听课权限扣扣君498856122 二.大数据工程师的技能要求 附上两份比较权威的大数据工程师技能图 总结如下: 必须技能10条: Java高级(虚拟机、并发)、Linux 基本操作、Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )、...
- 下一篇
400+ 节点的 Elasticsearch 集群运维
目录: 数据量 版本 节点配置 索引结构 性能 Meltwater每天要处理数百万量级的帖子数据,因此需要一种能处理该量级数据的存储和检索技术。 从0.11.X 版本开始我们就已经是Elasticsearch的忠实用户了。在经历了一些波折之后,最终我们认为做出了正确的技术选型。 Elasticsearch 用于支持我们的主要媒体监控应用,客户通过该应用可以检索和分析媒体数据,比如新闻文章、(公开的)Facebook帖子、Instagram帖子、博客和微博。我们通过使用一个混合API来收集这些内容,并爬取和稍作加工,使得它们可被 Elasticsearch 检索到。 本文将分享我们所学到的经验、如何调优 Elasticsearch,以及要绕过的一些陷阱。 如果想了解更多关于我们在Elasticsearch方面的点滴,可参考之前博文中的 numad issues 和 batch percolator。 1.数据量 每天都有数量相当庞大的新闻和微博产生;在高峰期需要索引大约300多万社论文章,和近1亿条社交帖子数据。其中社论数据长期保存以供检索(可回溯到2009年),社交帖子数据保存近15个...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境