干货 :5种项目助你找到数据科学工作
或许您已经在网上看了许多的MOOC,阅读了很多工具书,但是您有可能仍然担心找不到工作或根本没有找到工作。在数据科学领域找到合适的工作的确有一定难度。最好的向HR展现您能力的方式就是准备一个文件夹。在文件夹中放入以下五种您做过的数据科学项目。
数据清洗
通常来讲,数据科学家在一个新的项目中预计会花80%的时间来清洗数据。这对于团队来说是一个长而痛苦的过程。如果您能展示您在清洗数据上具有丰富的经验,您就会变得很有价值。您可以找一些杂乱无章的数据集练习清理数据来增加您的经验。
如果您用的是Python,Pandas是一个很好用的包;如果您用的是R,dplyr包将会是一个不错的选择。确保您展示出以下的技能:
● 标注重点数据● 连接多个数据集
● 检测缺失数据
● 检测异常值
● 填充缺失数据
● 确认数据质量
探索性数据分析
另一项有关数据科学的重要内容是探索性数据分析(EDA)。这是提出问题的过程,需要您用可视化技术来研究这个数据集。EDA使得分析师能够从数据中得出一些能驱动商业决策的结论。或许您能从客户的数据、销售的趋势、季节的影像中得到有趣的结论。甚至有时候您能有一些和您最初设想完全不同的发现。
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。对于R用户,ggplot2包将很有用。EDA项目应该显示以下技能:
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。对于R用户,ggplot2包将很有用。EDA项目应该显示以下技能:
● 能够为调查制定相关问题● 识别趋势
● 识别变量之间的相关关系
● 使用可视化技术(散点图,直方图,箱线图等)有效地传达结果
交互式数据可视化
交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的最终用户都很有用。仪表板允许数据科学团队进行协作,并一起绘制见解。更重要的是,它们为面向业务的客户提供了一种交互式工具。这些人专注于战略目标而非技术细节。通常,数据科学项目的可交付成果将以仪表板的形式出现。
对于Python用户,Bokeh和Plotly库非常适合创建仪表板。对于R用户,请务必查看RStudio的Shiny软件包。您的仪表板项目应突出显示以下重要技能:
● 包括与客户需求相关的指标● 创建有用的功能
● 逻辑布局(“F模式”便于扫描)
● 创建最佳刷新率
● 生成报告或其他自动操作
机器学习
机器学习项目是数据科学组合的另一个重要部分。在您开始构建一些深度学习项目之前,请退后一步。我们说的并不是建立复杂的机器学习模型,而是坚持基础。线性回归和逻辑回归是很好的开始。这些模型更易于解释和与上层管理层沟通。我还建议关注一个对业务有影响的项目,例如预测客户流失,欺诈检测或贷款违约。这比预测花型更贴近于工作实际。
如果您是Python用户,请使用Scikit-learn库。对于R用户,请使用Caret包。您的机器学习项目应该传达以下技能:
-
您选择使用特定机器学习模型的原因
-
将数据拆分为训练/测试集(k倍交叉验证)以避免过拟合
-
选择正确的评估指标(AUC,adj-R ^ 2,混淆矩阵等)
-
特征值的选择
-
超参数调整
沟通是数据科学的一个重要方面。能否有效地传达结果是优秀数据科学家与优秀科学家之间的区别。无论您的模型多么花哨,如果您无法向队友或客户解释,您将无法获得他们的支持。幻灯片和笔记本电脑都是很好的沟通工具。尝试将您的一个机器学习项目放入幻灯片格式中。您还可以将Jupyter Notebook或RMarkdown文件用于需要沟通的项目。
确保了解您的目标受众是谁。向高管们展示您的项目和向机器学习专家展示是非常不同的。一定要掌握这些技能:
● 了解您的目标受众● 使用相关的可视化技术
● 请勿过多地提供幻灯片
● 确保您的演示文稿流畅
● 将结果与业务影响相结合(降低成本,增加收入)
确保在Jupyter笔记本或RMarkdown文件中记录您的项目。然后,您可以使用Github Pages将这些文件免费转换为静态网站。这是向潜在雇主展示您的项目的好方法。
原文发布时间为:2018-10-5
本文作者:John Sullivan
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Java泛型方法
泛型是什么意思在这就不多说了,而Java中泛型类的定义也比较简单,例如:public class Test{}。这样就定义了一个泛型类Test,在实例化该类时,必须指明泛型T的具体类型,例如:Test t = new Test ();,指明泛型T的类型为Object。"> 但是Java中的泛型方法就比较复杂了。 泛型类,是在实例化类的时候指明泛型的具体类型;泛型方法,是在调用方法的时候指明泛型的具体类型。 定义泛型方法语法格式如下: 调用泛型方法语法格式如下: 说明一下,定义泛型方法时,必须在返回值前边加一个<T>,来声明这是一个泛型方法,持有一个泛型T,然后才可以用泛型T作为方法的返回值。 Class<T>的作用就是指明泛型的具体类型,而Class<T>类型的变量c,可以用来创建泛型类的对象。 为什么要用变量c来创建对象呢?既然是泛型方法,就代表着我们不知道具体的类型是什么,也不知道构造方法如何,因此没有办法去new一个对象,但可以利用变量c的newInstance方法去创建对象,也就是利用反射创建对象。 泛型方法要求的参数是Class<T&...
- 下一篇
Java根据两点经纬度计算距离
这些经纬线是怎样定出来的呢?地球是在不停地绕地轴旋转(地轴是一根通过地球南北两极和地球中心的假想线),在地球中腰画一个与地轴垂直的大圆圈,使圈上的每一点都和南北两极的距离相等,这个圆圈就叫作“赤道”。在赤道的南北两边,画出许多和赤道平行的圆圈,就是“纬圈”;构成这些圆圈的线段,叫做纬线。我们把赤道定为纬度零度,向南向北各为90度,在赤道以南的叫南纬,在赤道以北的叫北纬。北极就是北纬90度,南极就是南纬90度。纬度的高低也标志着气候的冷热,如赤道和低纬度地地区无冬,两极和高纬度地区无夏,中纬度地区四季分明。 其次,从北极点到南极点,可以画出许多南北方向的与地球赤道垂直的大圆圈,这叫作“经圈”;构成这些圆圈的线段,就叫经线。公元1884平面坐标图年,国际上规定以通过英国伦敦近郊的格林尼治天文台的经线作为计算经度的起点,即经度零度零分零秒,也称“本初子午线”。在它东面的为东经,共180度;在它西面的为西经,共180度。因为地球是圆的,所以东经180度和西经180度的经线是同一条经线。各国公定180度经线为“国际日期变更线”。为了避免同一地区使用两个不同的日期,国际日期变线在遇陆地时略有偏离。...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题