想入门数据科学领域？明确方向更重要-低调大师

想入门数据科学领域？明确方向更重要

2018-11-15 704

我在一家数据科学培训公司工作。对于学员，我常常给出的建议并不是推荐库或者工具，而是让他们首先明确自己想成为什么样的数据科学家，确定自己的方向。

当中的原因在于，数据科学并不是单一且定义明确的领域，公司并不会雇用所谓的全能型数据科学家，而是会选择有拥专业技能的个人。

为了更好的理解，假设你们公司想聘请数据科学家。那么，你们肯定有明确的问题需要解决，而这需要具体的技术知识和专业知识。例如，有些公司将简单模型应用于大型数据集；有些公司将复杂模型应用于小型模型；有些公司需要动态训练模型；有些公司根本不使用（传统）模型。

以上这些都需要完全不同的技能。对于想进入数据科学领域的人群收到的建议往往是：学习使用Python，构建分类/回归/聚类等项目在开始找工作，这其实是不太合理的。

数据科学家在工作中承担了很多责任。人们会将过多的内容归入“数据科学”的范畴。为生产构建强大的数据管道，这应该是数据科学方面的问题；开发一种新的神经网络，这应该是数据科学方面的问题。

这种现象并不好，因为这会让有抱负的数据科学家失去方向和对特定问题的关注。

为了避免成为全能型数据科学家，再次之前让我们先了解数据科学领域主要有哪些职位，以及他们常常被混淆的原因：

1. 数据工程师

职位描述

为处理大量数据的公司管理数据管道。这意味着需要有效地收集和检索数据，而且在使用数据前需进行清理和预处理。

重要性

如果你只使用过存储在.csv或.txt文件中的相对较小的数据集(小于5G)，那么你可能很难理解为什么需要专人维护数据管道。当中的原因在于：1）计算机很难承载大小为50 G的数据集，因此需要以其他方式将其提供给模型；2）大量数据可能需要花费大量时间来处理，并且经常需要冗余存储。进行管理存储需要专业的技术知识。

技能要求

你需要使用Apache Spark、Hadoop、Hive和Kafka。还需要有扎实的SQL的基础。

处理的问题

● 如何构建每分钟能处理1万个请求的管道？

● 如何在不将其全部加载到RAM的情况下清理该数据集？

2. 数据分析师

职位描述

将数据转化为可操作的商业见解。你通常会成为技术团队和商业计划、销售或营销团队之间的中间人。数据可视化是你日常工作的重要组成部分。

重要性

有些人很难理解为什么数据分析师如此重要，但他们确实如此。数据分析师需要将经过训练和测试的模型，以及大量用户数据转换为易于理解的格式，以便转化为商业策略。数据分析师帮助确保数据科学团队不会浪费时间来解决无法提供商业价值的问题。

技能要求

需要掌握Python，SQL，Tableau和Excel。你还需要出色的沟通能力。

处理的问题

● 是什么带来了用户增长？

● 如何向管理层解释最近的使用费让用户望而却步？

3. 数据科学家

职位描述

清理和探索数据集，并进行能带来商业价值的预测。你的日常工作包括训练和优化模型，并将其部署到生产中。

重要性

当你有大量难以被解析的数据，你需要从中提取出可理解的分析见解。这是数据科学家的基本工作：将数据集转换为易于理解的结论。

技能要求

包括Python、scikit-learn、Pandas、SQL、也许还需要掌握Flask、Spark、TensorFlow、PyTorch。有些数据科学职位纯粹是技术性的，但大多数情况还需具备一定的商业意识。

处理的问题

● 我们有多少种不同的用户类型？

● 是否能建立一个模型来预测哪些产品将销售给哪些用户？

4. 机器学习工程师

职位描述

构建、优化机器学习模型，以及部署到生产。你的工作离不开机器学习模型，而且需要将其放入全栈应用程序或硬件中，但也需要自己设计模型。

技能要求

需要掌握Python、Javascript、scikit-learn，TensorFlow 、PyTorch，以及SQL或MongoDB。

处理的问题

● 如何将此Keras模型集成到我们的Javascript应用程序中？

● 如何减少推荐系统的预测时间和预测成本？

5. 机器学习研究员

职位描述

找到解决数据科学和深度学习中的挑战性问题的新方法。你不会使用开箱即用的解决方案，而是需要创建解决方案。

技能要求

需要用到Python、TensorFlow、PyTorch和SQL。

处理的问题

● 如何将模型的准确性提高到最高水平？

● 自定义优化器有助于减少训练时间吗？

结语

我在这里列出的五个职位绝对不是孤立的。例如，在创业公司早期，数据科学家也需要充当数据工程师或数据分析师的角色。但是大多数工作会按类别分类，公司规模越大，类别则越具体。

总的来说，为了找到心仪的工作，你需要明确具体的方向。如果你想成为一名数据分析师，就暂时不用学习TensorFlow；如果你想成为一名机器学习研究员，那么不用先学Pyspark。

在打算进入数据科学领域前，可以思考一下你希望为公司带来哪方面的价值，并朝着这个方向努力，这是入门的最佳方式。

原文发布时间为：2018-11-15

本文来自云栖社区合作伙伴“CDA数据分析师”，了解相关信息可以关注“CDA数据分析师”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/670076

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

标准坐标系与火星坐标系（高德）百度坐标系之间互转

这里先给大家介绍几个坐标系： 1.WGS84：国际坐标系，为一种大地坐标系，也是目前广泛使用的GPS全球卫星定位系统使用的坐标系。2.GCJ02：火星坐标系，是由中国国家测绘局制订的地理信息系统的坐标系统。由WGS84坐标系经加密后的坐标系。3.BD09：为百度坐标系，在GCJ02坐标系基础上再次加密。其中bd09ll表示百度经纬度坐标，bd09mc表示百度墨卡托米制坐标今天我要说的是，我们大部分的定位GPS设备以及硬件都是获取的WGS84坐标也就是我们说的标准坐标系但是我们软件应用层一般使用的高德，百度，腾讯的地图API，如果直接使用标准坐标系定位是会存在偏差的，所以就需要我们进行转换才能使用，这里给大家提供几种方式： 1.硬件设备获取的GPS坐标格式是转换成度格式：北纬：29+37.1453/60=29.61908 东经：106+29.7713/60=106.49618 就是需要我们转换后才能使用，在最近一个项目中，硬件设备传到服务器的GPS格式是【3028.0979】【10400.4032】但是服务器接收到是【30, 28, 9, 79】【1, 4, 0, 40, 32】...

2018-11-15

631

现实企业级Java应用开发、维护中，有时候我们会碰到下面这些问题： OutOfMemoryError，内存不足内存泄露线程死锁锁争用（Lock Contention） Java进程消耗CPU过高 ...... 这些问题在日常开发、维护中可能被很多人忽视（比如有的人遇到上面的问题只是重启服务器或者调大内存，而不会深究问题根源），但能够理解并解决这些问题是Java程序员进阶的必备要求。本文将对一些常用的JVM性能调优监控工具进行介绍，希望能起抛砖引玉之用。而且这些监控、调优工具的使用，无论你是运维、开发、测试，都是必须掌握的。 A、jps(Java Virtual Machine Process Status Tool) jps主要用来输出JVM中运行的进程状态信息。语法格式如下：如果不指定hostid就默认为当前主机或服务器。命令行参数选项说明如下：比如下面： B、jstack jstack主要用来查看某个Java进程内的线程堆栈信息。语法格式如下：命令行参数选项说明如下： jstack可以定位到线程堆栈，根据堆栈信息我们可以定位到具体代...

2018-11-15

655

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。