DC学院学习笔记（十一）：数据预处理—数据清理

2018-02-13 714

终于到了数据存储与预处理的最后一讲了，感觉讲得还不错！下面来看看数据的预处理吧！

格式转换
缺失数据
异常数据
数据标准化操作

准备知识

Pandas

Pandas逐渐成为了一个非常大的库，在数据处理问题方面表现优秀，是一个不可或缺的工具，Pandas中包含两个主要的数据结构：Series & DataFrame
更多请看：

Seaborn

Seaborn是基于matplotlib的绘图库，可以制作更多更美观的图形，如Example gallery中也可以看到很多关于图像的示例。这个绘图库可以很好地辅助我们对数据进行第一步的观察
更多请看：
Seaborn tutorial

格式转换

如Python记录时间的方式，不能够直接实现减运算，就需要进行转换

pandas.to_datetime

缺失数据、异常数据

忽略缺失数据
直接标记
利用平均值、最常出现值进行填充

标准化

一般在分析数据时进行操作

数据清理示例

这里还是用iris数据集举例

import pandas
users = pandas.read_csv("iris.csv")

## 读取前几条
users.head()

	Id	SepalLengthCm	SepalWidthCm	PetalLengthCm	PetalWidthCm	Species
0	1	5.1	3.5	1.4	0.2	Iris-setosa
1	2	4.9	3.0	1.4	0.2	Iris-setosa
2	3	4.7	3.2	1.3	0.2	Iris-setosa
3	4	4.6	3.1	1.5	0.2	Iris-setosa
4	5	5.0	3.6	1.4	0.2	Iris-setosa

users.tail()

	Id	SepalLengthCm	SepalWidthCm	PetalLengthCm	PetalWidthCm	Species
145	146	6.7	3.0	5.2	2.3	Iris-virginica
146	147	6.3	2.5	5.0	1.9	Iris-virginica
147	148	6.5	3.0	5.2	2.0	Iris-virginica
148	149	6.2	3.4	5.4	2.3	Iris-virginica
149	150	5.9	3.0	5.1	1.8	Iris-virginica

#查看平均值，标准差等，只针对数字的属性
users.describe()

	Id	SepalLengthCm	SepalWidthCm	PetalLengthCm	PetalWidthCm
count	150.000000	150.000000	150.000000	150.000000	150.000000
mean	75.500000	5.843333	3.054000	3.758667	1.198667
std	43.445368	0.828066	0.433594	1.764420	0.763161
min	1.000000	4.300000	2.000000	1.000000	0.100000
25%	38.250000	5.100000	2.800000	1.600000	0.300000
50%	75.500000	5.800000	3.000000	4.350000	1.300000
75%	112.750000	6.400000	3.300000	5.100000	1.800000
max	150.000000	7.900000	4.400000	6.900000	2.500000

#查看数据的属性，150条，每条有6个属性
users.shape

(150, 6)

users.loc[1:3,'SepalWidthCm']

1    3.0
2    3.2
3    3.1
Name: SepalWidthCm, dtype: float64

#去除有NaN的数据
users['SepalLengthCm'].dropna()[1:5]

1    4.9
2    4.7
3    4.6
4    5.0
Name: SepalLengthCm, dtype: float64

#用seaborn做一个简单的可视化
import seaborn
#因为我用的是jupyter notebook,所以要加上这句话
%matplotlib inline
#箱线图
seaborn.boxplot(users['PetalWidthCm'].dropna())

#柱状图
seaborn.distplot(users['PetalWidthCm'].dropna())

#异常数据处理:筛选PetalWidthCm<2及PetalWidthCm>0.5
users_new=users[users["PetalWidthCm"]<2]
users_new=users_new[users_new["PetalWidthCm"]>0.5]
#再重新看一下柱状图
seaborn.distplot(users_new["PetalWidthCm"].dropna())

微信关注我们

原文链接：https://yq.aliyun.com/articles/471870

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Java中Collections.sort()方法的演变

先看一段代码 List<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); Iterator<Integer> it = list.iterator(); Collections.sort(list); while (it.hasNext()) { System.out.println(it.next()); } Java7 运行效果 1 2 3 Java8 运行效果结果分析在上面的代码中，我们先得到list的iterator，然后对list进行排序，最后遍历iterator。从Java8的错误信息中可以看出it.next( )方法中检查list是否已经被修改，由于在遍历之前进行了一次排序，所以checkForComodification方法抛出异常ConcurrentModificationException。这个可以理解，因为排序,肯定会修改list 但是为啥Java7中没问题呢？源码分析首先看checkForComodifi...

2018-02-13

630

反射反射，程序员的快乐这句话想必大家都经常听过，基本上在绝大多数的框架和一些设计模式中都能看到反射的身影（MVC、IOC、AOP、O/RM），反射：是.Net Framework提供的一个帮助类库，可以访问dll的metadata，并且使用它。反射给我们带来的优缺点如下：极大的解耦动态创建代码多编写量大避开编译器的检查性能问题反射性能要差普通的400+倍但是绝对值小，几乎不影响项目性能而且还可以优化，空间换时间(非常适合泛型缓存) 下面一些示例介绍一些反射比较实用的基本用法 (Unity版本：2017.3.0 P4 .NET 4.6) 示例工程下载 using System; using System.Collections; using System.Collections.Generic; using System.Reflection; using UnityEngine; public class InvokeReflection : MonoBehaviour { void Start() { Learn00(); } public void Learn...

2018-02-13

435

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

DC学院学习笔记（十一）：数据预处理—数据清理

准备知识

Pandas

Seaborn

格式转换

缺失数据、异常数据

标准化

数据清理示例

Java中Collections.sort()方法的演变

Unity C#基础之反射反射，程序员的快乐

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Nacos

WebStorm

欢迎您来访！

DC学院学习笔记（十一）：数据预处理—数据清理

准备知识

Pandas

Seaborn

格式转换

缺失数据、异常数据

标准化

数据清理示例

Java中Collections.sort()方法的演变

Unity C#基础之 反射反射，程序员的快乐

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Nacos

WebStorm

欢迎您来访！

Unity C#基础之反射反射，程序员的快乐