sklearn调包侠之PCA降维
PCA PCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。 实战——人脸识别 数据导入 该数据集可通过sklearn进行下载。数据集总共包含40位人员的照片,每个人10张照片。通过fetch_olivetti_faces方法下载的图片,进行了处理,人脸会居中,并裁剪为64*64大小。 %matplotlib inline import matplotlib.pyplot as plt import numpy as np from sklearn.datasets import fetch_olivetti_faces faces = fetch_olivetti_faces() X = faces.data y = faces.target pca 由于数据集样本少(400),特征高(64*64),需要对数据进行降维后,再建立模型。 那到底选择多少主成分合适了?我们这里计算多组主成分,获取数据还原率,如图所示,选择140个主成分,可以保证还原率大于0.95。 from sklearn.decomposition import PCA ...