python数据清洗excel
python清洗excel的数据还是很简单的
这里就列举例子说一下
这是原始数据,这里要处理的是地区和薪水两个字段。
import xlrd import codecs import re def get_salary(salary): # 利用正则表达式提取月薪,把待遇规范成千/月的形式 # 返回最低工资,最高工资的形式 if '-' in salary: # 针对1-2万/月或者10-20万/年的情况,包含- low_salary = re.findall(re.compile('(\d*\.?\d+)'), salary)[0] high_salary = re.findall(re.compile('(\d?\.?\d+)'), salary)[1] if u'万' in salary and u'年' in salary: # 单位统一成千/月的形式 low_salary = float(low_salary) / 12 * 10 high_salary = float(high_salary) / 12 * 10 elif u'万' in salary and u'月' in salary: low_salary = float(low_salary) * 10 high_salary = float(high_salary) * 10 else: # 针对20万以上/年和100元/天这种情况,不包含-,取最低工资,没有最高工资 low_salary = re.findall(re.compile('(\d*\.?\d+)'), salary)[0] high_salary = "" if u'万' in salary and u'年' in salary: # 单位统一成千/月的形式 low_salary = float(low_salary) / 12 * 10 elif u'万' in salary and u'月' in salary: low_salary = float(low_salary) * 10 elif u'元' in salary and u'天' in salary: low_salary = float(low_salary) / 1000 * 21 # 每月工作日21天 return low_salary, high_salary def open_xlsx(file): # 加载Excel数据,获得工作表和行数 data = xlrd.open_workbook(file) #读取工作表名称 table0 = data.sheet_by_name('51') #读取 当前sheet表 nrows = table0.nrows # 获取行数 return table0, nrows def main(): table, nrows = open_xlsx('512.xlsx') # 调用打开excel的函数 print('一共有{}行数据,开始清洗数据'.format(nrows)) for i in range(1, nrows): job = table.row_values(i)[0] company = table.row_values(i)[1] companytype = table.row_values(i)[2] area = table.row_values(i)[3][:2] # 地区取到城市,把区域去掉 if area: area_list.append(area) experience = table.row_values(i)[4] degree = table.row_values(i)[5] salary = table.row_values(i)[6] if salary: # 如果待遇这栏不为空,计算最低最高待遇 getsalary = get_salary(salary) low_salary = getsalary[0] high_salary = getsalary[1] else: low_salary = high_salary = "" print('正在写入第{}条,最低工资是{}k,最高工资是{}k'.format(i, low_salary, high_salary)) output = ('{}\t{}\t{}\t{}\t{}\t{}\t{}\t{}\n').format(job, company, companytype, area, experience,degree, low_salary, high_salary ) f = codecs.open('51jobanaly.xls', 'a+') f.write(output) f.close() if __name__ == '__main__': main()
主要把薪资处理成以千/月为单位。保留城市。
处理后的数据:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
SSM面试
Mybatis 简介 mybatis支持普通sql查询,存储过程和高级映射的优秀持久层框架,Mybatis消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检查,Mybatis使用简单的xml或注解用于配置和原始映射,将接口和Java的POJO(plan old Java Object)普通的Java对象映射成数据库的记录 每个mybatis应用程序主要都是使用SqlSessionFaction实例的,一个sqlSessionFaction实例可以通过sqlSessionFactionBuilder获得,SqlSessionFactionBuilder可以从一个xml配置文件或者一个预定义的配置类的实例获得 mybatis有一个实用类(Resources)它由很多方法,可以很方便地从类路径及其他位置加载资源 流程 加载配置并初始化 触发条件:加载配置文件 将sql的配置信息加载成为一个个mappedStatment对象,包括了传入参数映射 配置执行的sql语句,结果集映射配置,存储在内存中 接受调用请求 触发条件:调用mybatis提供的API 传入参数:为sql的id和传入参数...
- 下一篇
Java 比较器Comparator和Comparable的使用和区别
一、参考 1、【java】Comparator的用法 2、Java 中 Comparable 和 Comparator 比较 二、知识点 1、使用场景:排序、分组 2、使用方法: 2.1 、Arrays.sort(T[],Comparator<? super T> c); 2.2、 Collections.sort(List<T> list,Comparator<? super T> c); 3、区别: 3.1 、Comparator相当于给一个数组或列表新增一种比较方式 3.2 、Comparable是接口需要被类继承的,相当于本身这个数组或者列表及类就有这种比较方式。后面有详细是有案例 三、案例 1、OrderBean订单类 1.1、继承了Comparable这个借口,有个简单的比较,升序的 //订单 public class OrderBean implements Comparable<OrderBean>{ private int id; //id private String cdate; //创建时间 pr...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2配置默认Tomcat设置,开启更多高级功能