KTV 歌曲推荐-PCA 降维+逻辑回归-性别预测及过拟合处理-低调大师

KTV 歌曲推荐-PCA 降维+逻辑回归-性别预测及过拟合处理

2020-03-15 705

前言

上一篇使用逻辑回归预测了用户性别，由于矩阵比较稀疏所以会影响训练速度。所以考虑降维，降维方案有很多，本次只考虑PCA和SVD。

PCA和SVD原理

有兴趣的可以自己去研究一下 https://medium.com/@jonathan_hui/machine-learning-singular-value-decomposition-svd-principal-component-analysis-pca-1d45e885e491

我简述一下：

PCA是将高维数据映射到低维坐标系中，让数据尽量稀疏
SVD就是非方阵的PCA
实际使用中SVD和PCA并无太大区别
如果特征大于数据记录数，并不能有好的效果，具体原因自己可以去看。

代码

数据获取和处理

以前文章写过很多次，这里略过原数据shape为：2000*1900

PCA和矩阵转换

查看最佳维度数

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
pca = PCA().fit(song_hot_matrix)
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance');

从图中可以看出大概1500维度已经可以达到90+解释性

保留99%矩阵解释性

pca = PCA(n_components=0.99, whiten=True)
song_hot_matrix_pca = pca.fit_transform(song_hot_matrix)

得到压缩后特征为： 2000*1565 并没有压缩多少

模型训练

import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"   # see issue #152
os.environ["CUDA_VISIBLE_DEVICES"] = ""

import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding,Flatten,Dropout
import matplotlib.pyplot as plt
from keras.utils import np_utils
from sklearn import datasets
from sklearn.model_selection import train_test_split

n_class=user_decades_encoder.get_class_count()
song_count=song_label_encoder.get_class_count()
print(n_class)
print(song_count)

train_X,test_X, train_y, test_y = train_test_split(song_hot_matrix_pca,
                                                   decades_hot_matrix,
                                                   test_size = 0.2,
                                                   random_state = 0)
train_count = np.shape(train_X)[0]
# 构建神经网络模型
model = Sequential()
model.add(Dense(input_dim=song_hot_matrix_pca.shape[1], units=n_class))
model.add(Activation('softmax'))

# 选定loss函数和优化器
model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])

# 训练过程
print('Training -----------')
for step in range(train_count):
    scores = model.train_on_batch(train_X, train_y)
    if step % 50 == 0:
        print("训练样本 %d 个, 损失: %f, 准确率: %f" % (step, scores[0], scores[1]*100))
print('finish!')

训练结果：

训练样本 4750 个, 损失: 0.371499, 准确率: 83.207470
训练样本 4800 个, 损失: 0.381518, 准确率: 82.193959
训练样本 4850 个, 损失: 0.364363, 准确率: 83.763909
训练样本 4900 个, 损失: 0.378466, 准确率: 82.551670
训练样本 4950 个, 损失: 0.391976, 准确率: 81.756759
训练样本 5000 个, 损失: 0.378810, 准确率: 83.505565

测试集验证：

# 准确率评估
from sklearn.metrics import classification_report
scores = model.evaluate(test_X, test_y, verbose=0)
print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))


Y_test = np.argmax(test_y, axis=1)
y_pred = model.predict_classes(song_hot_matrix_pca.transform(test_X))
print(classification_report(Y_test, y_pred))

accuracy: 50.20%

很明显已经过拟合

处理过拟合-增加Dropout

这里使用加Dropout，随机丢弃特征的方式处理过拟合，代码：

# 构建神经网络模型
model = Sequential()
model.add(Dropout(0.5))
model.add(Dense(input_dim=song_hot_matrix_pca.shape[1], units=n_class))
model.add(Activation('softmax'))

accuracy：70%

处理过拟合-L1L2正则

这里给权重增加正则

# 构建神经网络模型
model = Sequential()
model.add(Dense(input_dim=song_hot_matrix_pca.shape[1], units=n_class, kernel_regularizer=regularizers.l2(0.01)))
model.add(Activation('softmax'))

accuracy：62%

Well Done

其实SVD的做法与PCA类似，这里不再演示。经过我测试发现，在我的数据集上，PCA虽然加快了训练速度，但是丢弃了太多特征，导致数据很容易过拟合。加入Dropout或者增加正则相可以改善过拟合的情况，下一篇会分享自编码降维。

微信关注我们

原文链接：https://my.oschina.net/u/1240907/blog/3189030

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Fedora 32 Beta 将于下周发布

在此前的 Go/No-Go 会议上，Fedora 32 Beta 被认为尚未准备好发布。不过经过跟进对 bug 的修复，现在会议又决定可以在 3 月 17 日发布 Fedora 32 Beta。如果一切顺利，17 日发布 Beta 版本后，按照时间表，4 月 21 日将发布 Fedora 32 正式版。而关于该版本的更新，亮点包括 GCC 10、DNF、Glibc 与 GNOME 等应用改进，具体可查看： https://fedoraproject.org/wiki/Releases/32/ChangeSet

2020-03-15

683

Google方面宣布，Chrome 浏览器的 Windows、inux 和 macOS 高级用户现在已可以使用新的“默认为访客模式”功能。可以使用命令行开关或企业策略启用新的 Google Chrome 浏览器功能，该功能允许用户将网络浏览器配置为始终以访客模式启动。在这种浏览模式下，Chrome 退出浏览器后将删除计算机上的所有浏览活动，从而为用户提供“从会话到会话的无状态浏览体验”。 Chrome 的“默认为访客”模式访客模式可用于允许其他人使用您的计算机进行浏览或在其他人的设备上浏览网络，而无需访问任何 Chrome 配置文件。访客模式和隐身模式之间的区别在于，您仍然可以在使用个人资料时访问其个人资料中的所有信息。 Google 解释称：“您关闭所有打开的来宾窗口后，您在此窗口中查看的页面将不会出现在浏览器历史记录中，并且它们也不会在计算机上留下其他痕迹，例如cookie。但是，您下载的所有文件都会保留下来。” 在访客模式下浏览网页时，Chrome 不会在以下位置保存任何信息：用户访问的网站，包括这些网站上使用的广告和资源用户登录的网站用户的雇主，学校或运行用户所使...

2020-03-15

648

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。