数据科学求职建议:掌握5种类型的数据科学项目
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
一年一度的秋招已经打响了发令枪,从去年的薪酬排行来看,算法工程师和数据分析等工作排在前列,很多相关专业的学生一直在自学一些网络上的公开课并阅读一些专业书籍,比如“西瓜书”、“花书”等,如果你现在仍然什么也没有准备的话,然而还想从事数据科学领域这个似乎令人望而生畏的工作话,现在就要抓紧补补相关的知识了。在这里要提示一点,自我完善的知识不要局限于数据分析相关的知识,还要额外补充下相关领域的知识。另外,简历上展示个人技能的***方式是使用技能组合的形式,这样能让雇主相信你可以使用你已经学习的技能。为了展示这些技能,以下是你应该着重补充的5种数据科学项目组合类型:
1.数据清理
数据科学家预计在一个新项目的清理数据处理上花费多达80%的时间,这对于团队来说是一个巨大的代价。如果你可以证明你在数据清理方面经验丰富,那么你将立即变得更有价值。练习这项能力的方法是创建一个数据清理项目,找到一些混乱的数据集并开始进行清理。
如果你使用Python语言进行编程,那么Pandas是一个很好用的库,如果你使用R语言编程,那么你可以使用dplyr数据包。你实践的数据清洗项目应该确保展示以下技能:
- 导入数据
- 加入多个数据集
- 检测缺失值
- 检测异常
- 输入缺失的值
- 数据质量保证
2.探索性数据分析
数据科学的另一个重要方面是探索性数据分析(EDA),这是一个生成问题并用可视化方法对其进行调查的过程。 EDA允许分析人员从数据中得出结论来推动业务影响,它可能包括基于客户细分的有趣洞察,或基于季节效应的销售趋势。通常你可以通过探索性数据分析来得到一些有趣的发现。
用于探索性分析的一些有用的Python库有Pandas和Matplotlib。对于R用户而言,ggplot2软件包将会很有用。你实践的EDA项目应该显示以下技能:
- 能够制定相关的调查问题
- 识别趋势
- 识别变量之间的协变
- 使用可视化有效地传达结果(散点图,直方图,饼图等)
3.交互式数据可视化
交互式数据可视化包括诸如仪表板之类的工具,这些工具对于数据科学团队以及更多面向业务的最终用户都是很有用的。仪表盘允许数据科学团队进行协作并共同绘制见解。更重要的是,它们为面向商业的客户提供了交互式工具,这些人专注于战略目标而不是技术细节。数据科学项目的交付成果往往以仪表板的形式出现。
对于Python用户而言,Bokeh和Plotly库是非常适合用来创建仪表板的。而对于R用户,可以使用RStudio的Shiny软件包。你实践的仪表板项目应该强调这些重要技能:
- 包括与客户需求相关的指标
- 创建有用的功能逻辑布局(易于扫描的“F模式”)
- 创建***刷新率
- 生成报告或其他自动操作
4.机器学习
机器学习项目是数据科学产品组合的另一个重要组成部分。现在,在开始进行一些深度学习项目之前,请保持耐心。不要一开始就构建复杂的机器学习模型,而要坚持从基础知识开始学起。线性回归和逻辑回归是很好的开始,这些模型更容易解释并能清晰地与上层管理人员沟通。此外,我还建议专注于具有业务影响的项目,例如预测客户流失,欺诈检测或贷款违约等,这些比预测花型更实用。
如果你是Python用户,请使用Scikit-Learn学习库。而对于R用户,请使用Caret软件包。你实践的机器学习项目应该传达以下技能:
- 选择使用某个具体机器学习模型的原因
- 将数据分成训练/测试集(k-fold交叉验证)以避免过度拟合
- 选择正确的评估指标(AUC、adj-R ^ 2、混淆矩阵等)
- 特征工程和选择
- 超参数调整
5.沟通
沟通是数据科学的一个重要方面,对于工科人员而言这点尤其欠缺。能够有效地传达结果是区分优秀的数据科学家与伟大的数据科学家的重要衡量标准之一。无论你的模型多么华丽,如果你不能向队友或顾客解释它,你都不会得到他们的支持,就如同对牛弹琴一般。幻灯片和Notebook都是很好的沟通工具,可以将你的机器学习项目按照项目过程以PPT的形式展示,也可以使用Jupyter Notebook或RMarkdown文件进行沟通。
确保了解你的目标受众是谁,向高管呈现的内容与向机器学习专家呈现的内容二者是完全不同的。确保具备这些技能:
- 了解目标受众
- 提供相关的可视化
- 幻灯片不要写太多的内容
- 确保演示文稿流畅
- 将结果与业务影响联系起来(降低成本,增加收入)
确保在Jupyter笔记本或RMarkdown文件中记录自己的项目。然后,也可以使用Github 免费将这些Markdown文件转换为静态网站。这是向潜在雇主展示个人技能组合的好方法,即GitHub主页或CSDN博客等。
***,在求职的道路上请保持积极的态度,作为应届生,不要被一次次面试、笔试所扰乱心态,请保持继续补充知识、练习项目并参加一些竞赛等。不要慌张,秋招过去,还有春招,春招过去还有社招,只要你一直努力提升自己,相信最终会有好的结果等着你,希望你能够快乐求职,并且在数据科学领域工作顺心。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
3D打印与大数据会碰撞出什么样的火花?
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 现如今,投资界纷纷将目光聚焦在移动互联网应用、互联网金融以及智能穿戴设备等项目,似乎它们将是一批风口上的“猪”。而小编将要阐述和挖掘的这座金矿,就是一头能真正能飞起来的“猪”——以3D打印和大数据为基础的分布式制造。这种制造模式将彻底打通互联网业和制造业,给人类带来深刻的社会变革。 新技术下的争议 3D打印技术,是先在计算机上设计好CAD三维模型,然后3D打印机将材料逐层叠加,最终生成产品。3D打印技术具有按需制造、减少废弃副产品、材料多种组合、精确实体复制、便携制造等多种优势。这些优势可以降低约50%制造费用,缩短加工周期70%,实现设计制造一体化和复杂制造。 目前3D打印技术已广泛应用于国防军工、航空航天、船舶汽车等工业领域,在建筑行业、医疗卫生、人偶玩具、服装服饰、食品加工等民用级行业则刚刚起步。 2012年4月,英国《经济学人》刊文认为,3D打印技术是第三次工业革命***标志性的生产工具,该技术与其他数字化生产模式结合,将会推动第三次工业革命的实现。此论一出,反对的声音层出不穷。 最让业界耳熟能详的事例,莫...
- 下一篇
大数据的核心是云技术和BI
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用;大数据则相当于海量数据的“数据库”。 整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,当前的大数据处理一直在向着近似于传统数据库体验的方向发展。 大数据的4V特性,即类型复杂,海量,快速和价值,其总体架构包括三层,数据存储,数据处理和数据分析。类型复杂和海量由数据存储层解决,快速和时效性要求由数据处理层解决,价值由数据分析层解决。数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三层相互配合,让大数据最终产生价值。 数据存储层 数据有很多分法,有结构化...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7,8上快速安装Gitea,搭建Git服务器