想入门数据科学领域?明确方向更重要
我在一家数据科学培训公司工作。对于学员,我常常给出的建议并不是推荐库或者工具,而是让他们首先明确自己想成为什么样的数据科学家,确定自己的方向。
当中的原因在于,数据科学并不是单一且定义明确的领域,公司并不会雇用所谓的全能型数据科学家,而是会选择有拥专业技能的个人。
为了更好的理解,假设你们公司想聘请数据科学家。那么,你们肯定有明确的问题需要解决,而这需要具体的技术知识和专业知识。例如,有些公司将简单模型应用于大型数据集;有些公司将复杂模型应用于小型模型;有些公司需要动态训练模型;有些公司根本不使用(传统)模型。
以上这些都需要完全不同的技能。对于想进入数据科学领域的人群收到的建议往往是:学习使用Python,构建分类/回归/聚类等项目在开始找工作,这其实是不太合理的。
数据科学家在工作中承担了很多责任。人们会将过多的内容归入“数据科学”的范畴。为生产构建强大的数据管道,这应该是数据科学方面的问题;开发一种新的神经网络,这应该是数据科学方面的问题。
这种现象并不好,因为这会让有抱负的数据科学家失去方向和对特定问题的关注。
为了避免成为全能型数据科学家,再次之前让我们先了解数据科学领域主要有哪些职位,以及他们常常被混淆的原因:
1. 数据工程师
职位描述
为处理大量数据的公司管理数据管道。这意味着需要有效地收集和检索数据,而且在使用数据前需进行清理和预处理。
重要性
如果你只使用过存储在.csv或.txt文件中的相对较小的数据集(小于5G),那么你可能很难理解为什么需要专人维护数据管道。当中的原因在于:1)计算机很难承载大小为50 G的数据集,因此需要以其他方式将其提供给模型;2)大量数据可能需要花费大量时间来处理,并且经常需要冗余存储。进行管理存储需要专业的技术知识。
技能要求
你需要使用Apache Spark、Hadoop、Hive和Kafka。还需要有扎实的SQL的基础。
● 如何构建每分钟能处理1万个请求的管道?处理的问题
● 如何在不将其全部加载到RAM的情况下清理该数据集?
2. 数据分析师
职位描述
将数据转化为可操作的商业见解。你通常会成为技术团队和商业计划、销售或营销团队之间的中间人。数据可视化是你日常工作的重要组成部分。
重要性
有些人很难理解为什么数据分析师如此重要,但他们确实如此。数据分析师需要将经过训练和测试的模型,以及大量用户数据转换为易于理解的格式,以便转化为商业策略。数据分析师帮助确保数据科学团队不会浪费时间来解决无法提供商业价值的问题。
技能要求
需要掌握Python,SQL,Tableau和Excel。你还需要出色的沟通能力。
● 是什么带来了用户增长?处理的问题
● 如何向管理层解释最近的使用费让用户望而却步?
3. 数据科学家
职位描述
清理和探索数据集,并进行能带来商业价值的预测。你的日常工作包括训练和优化模型,并将其部署到生产中。
重要性
当你有大量难以被解析的数据,你需要从中提取出可理解的分析见解。这是数据科学家的基本工作:将数据集转换为易于理解的结论。
技能要求
包括Python、scikit-learn、Pandas、SQL、也许还需要掌握Flask、Spark、TensorFlow、PyTorch。有些数据科学职位纯粹是技术性的,但大多数情况还需具备一定的商业意识。
● 我们有多少种不同的用户类型?处理的问题
● 是否能建立一个模型来预测哪些产品将销售给哪些用户?
4. 机器学习工程师
职位描述
构建、优化机器学习模型,以及部署到生产。你的工作离不开机器学习模型,而且需要将其放入全栈应用程序或硬件中,但也需要自己设计模型。
技能要求
需要掌握Python、Javascript、scikit-learn,TensorFlow 、PyTorch,以及SQL或MongoDB。
● 如何将此Keras模型集成到我们的Javascript应用程序中?处理的问题
● 如何减少推荐系统的预测时间和预测成本?
5. 机器学习研究员
职位描述
找到解决数据科学和深度学习中的挑战性问题的新方法。你不会使用开箱即用的解决方案,而是需要创建解决方案。
技能要求
需要用到Python、TensorFlow、PyTorch和SQL。
● 如何将模型的准确性提高到最高水平?处理的问题
● 自定义优化器有助于减少训练时间吗?
结语
我在这里列出的五个职位绝对不是孤立的。例如,在创业公司早期,数据科学家也需要充当数据工程师或数据分析师的角色。但是大多数工作会按类别分类,公司规模越大,类别则越具体。
总的来说,为了找到心仪的工作,你需要明确具体的方向。如果你想成为一名数据分析师,就暂时不用学习TensorFlow;如果你想成为一名机器学习研究员,那么不用先学Pyspark。
在打算进入数据科学领域前,可以思考一下你希望为公司带来哪方面的价值,并朝着这个方向努力,这是入门的最佳方式。
原文发布时间为:2018-11-15
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
标准坐标系与火星坐标系(高德)百度坐标系之间互转
这里先给大家介绍几个坐标系: 1.WGS84:国际坐标系,为一种大地坐标系,也是目前广泛使用的GPS全球卫星定位系统使用的坐标系。2.GCJ02:火星坐标系,是由中国国家测绘局制订的地理信息系统的坐标系统。由WGS84坐标系经加密后的坐标系。3.BD09:为百度坐标系,在GCJ02坐标系基础上再次加密。其中bd09ll表示百度经纬度坐标,bd09mc表示百度墨卡托米制坐标 今天我要说的是,我们大部分的定位GPS设备以及硬件都是获取的WGS84坐标也就是我们说的标准坐标系 但是我们软件应用层一般使用的高德,百度,腾讯的地图API,如果直接使用标准坐标系定位是会存在偏差的,所以就需要我们进行转换才能使用,这里给大家提供几种方式: 1.硬件设备获取的GPS坐标格式是 转换成度格式: 北纬:29+37.1453/60=29.61908 东经:106+29.7713/60=106.49618 就是需要我们转换后才能使用,在最近一个项目中,硬件设备传到服务器的GPS格式是【3028.0979】【10400.4032】但是服务器接收到是【30, 28, 9, 79】【1, 4, 0, 40, 32】...
- 下一篇
JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解
现实企业级Java应用开发、维护中,有时候我们会碰到下面这些问题: OutOfMemoryError,内存不足 内存泄露 线程死锁 锁争用(Lock Contention) Java进程消耗CPU过高 ...... 这些问题在日常开发、维护中可能被很多人忽视(比如有的人遇到上面的问题只是重启服务器或者调大内存,而不会深究问题根源),但能够理解并解决这些问题是Java程序员进阶的必备要求。本文将对一些常用的JVM性能调优监控工具进行介绍,希望能起抛砖引玉之用。 而且这些监控、调优工具的使用,无论你是运维、开发、测试,都是必须掌握的。 A、jps(Java Virtual Machine Process Status Tool) jps主要用来输出JVM中运行的进程状态信息。语法格式如下: 如果不指定hostid就默认为当前主机或服务器。 命令行参数选项说明如下: 比如下面: B、jstack jstack主要用来查看某个Java进程内的线程堆栈信息。语法格式如下: 命令行参数选项说明如下: jstack可以定位到线程堆栈,根据堆栈信息我们可以定位到具体代...
相关文章
文章评论
共有0条评论来说两句吧...