从编程小白到数据科学家,我只用了 6 个月的时间
最近,我辞职了,离开了努力学习和艰苦奋斗了8年的工作,而且是裸辞。很多人不明白我为什么这么干。原因是我受不了老板对我精神上的摧残,我知道我必须做出改变。
当我男朋友建议我成为一名数据科学家时,我觉得他一定是疯了。我对编程一无所知。他太高估我的能力了。冒名顶替综合症发作了,我又开始陷入了自我怀疑的漩涡中。
大约两周后,我的朋友提出了完全相同的建议,于是,我开始认真思考,并开始接受这个想法。想想也是,未尝不可啊?于是,我决定从头开始学习,将自己重新塑造成一名数据科学家。
我打算按照自己的进度学习,因此我决定参加在线课程。我认为,拥有神经科学博士学位的我可能已经具备了足够的条件,可以从事数据科学工作。只不过我还需要一些实战技巧。
在本文中,我将介绍我参加的四门课程,以及我如何通过这些课程成为了硅谷一家医疗保健创业公司的数据科学家。
当时,我报名的大多数在线课程都是免费的。我想挑战自己,不花一分钱就学会所有的技术。你可以认为我很小气,哈哈。
基础知识
当初我放弃加州大学旧金山分校的博士后时,我的编程经验为零。我所有的研究都使用了统计数据,但规模很小。我之前分析过的所有数据集都是在实验室中生成的。因此,观测数量都很小。我需要学习更大规模地编程和分析数据。
编程入门
在决定成为一名数据科学家后,我想学习的第一项技术就是编写计算机代码。由于以前我从未编写过代码,因此完全是一无所知的样子。我认为,如果我讨厌编写代码,那么就证明数据科学不适合我。因此,这似乎是一个不错的起点。
我很幸运,我有一个朋友在很多技术领域工作过,他为我指明了正确的方向。他建议我先学Python。Python是出色的数据分析工具,用途广泛,并且可以很好地处理大型数据集,因此我就选择了Python作为起点。
学习编程
我首先报名了Python的入门课程,而且我选择Codecademy作为在线学习资源。
对我而言,这个在线学习网站的主要优点是能够在浏览器中直接编写代码。在计算机上正确安装编程环境仍然是我的致命弱点。因此,我很高兴如今有别的途径可以避免了。如果我的代码不能正常工作,那也是因为语法的问题,而不是环境设置错误。
我还非常喜欢Codecademy将每一小节的内容都缩短到几分钟。一旦我有闲暇时间,就可以随时登陆上去做几道题。由于可以利用碎片的时间学习,因此不必担心投入太多时间。
在学习完Python的基础知识后,我需要巩固统计方面的知识,并学习更大规模地分析数据。
学习数据分析
后来,我又通过Coursera网站学习了约翰·霍普金斯大学提供的数据科学专业知识。当时,你可以免费获得荣誉证书,而且仅在需要经过验证的证书时才需要付费。
对我来说,经过验证的证书似乎并不重要。取而代之的是,我需要能够在技术面试中展示数据科学的专业知识。因此,我选择了免费的专业课程。
对我来说,这门课程唯一的缺点是用R教授的。R是一种出色的统计分析编程语言,广受学术界的青睐。但是,我想学习使用Python语言的数据科学,因为我认为Python在创业公司中会更加有用。
我研究了一些Python数据分析课程,但这些课程都需要很多前提知识。我相信这些课程大多面向的是想过渡到数据科学的软件工程师。因此,学习这些课程的人必须拥有扎实的编程技术,而且知道如何设置python环境。
我喜欢Coursera数据科学专业课程的主要原因,是因为这门课程从最基础的知识开始讲解。第一课仔细讲解了如何安装R和R studio。这样我可以保证自己的环境没有任何技术问题,因此可以轻松地上完后续课程。
我选择约翰·霍普金斯大学数据科学专业的另一个原因是,该课程是由公共卫生部门教授的。我拥有健康科学领域的专业知识,因此很容易理解他们提出的例子。他们举例说明了空气质量对哮喘的影响以及与医疗保健相关的其他数据集。因此,我可以专心学习课程内容,而不用去想方设法理解数据分析的应用场景。
通过这一系列课程的学习,我对数据科学工作的主要方面有了基本的了解。这门课程涉及R语言编程、基本数据清理、分析、回归和机器学习。我真的很喜欢学习编程,以及如何使用代码来分析数据,因此我受到很大鼓舞,想要继续学习下去。
学习查询数据库
在回炉重造期间,我开始询问认识的人是否可以将我介绍给其他从学术界过渡到数据科学领域的人。我希望通过与这些人建立联系来有针对性地准备面试。
一位朋友向我介绍了Modcloth的一位数据科学家,她也和我有着类似的经历。她曾经是神经科学家,我发现她的建议特别有帮助。
她的主要建议是学习SQL。
Coursera数据科学专业课程完全没有提及SQL。但她说她每天的大部分工作都是查询数据库。她必须为业务开发和营销团队提取见解。她只有一小部分时间在从事统计分析和机器学习的工作。
我接受了她的建议,并报名参加了斯坦福大学在线教育课程的一个SQL课程。在所有课程中,我最喜欢的就是这门课。我之所以喜欢这门课是因为老师非常出色,通过非常简单的示例说明了很多概念,而且她还通过多种不同的方式解释了每个概念。
此后,我向很多人推荐了这门课程,因为我认为良好的SQL基础对于任何数据科学家都是必不可少的。我之前学习的数据科学课程没有介绍如何使用SQL从数据库中获取数据。我认为这是一个巨大的疏忽。大多数课程都准备了供学生使用的CSV数据,但是根据我的经验,行业数据科学工作很少有这种情况。
在完成斯坦福大学SQL课程后,我开始申请数据科学的工作。期间,我回到了澳大利亚,并通过视频参加了旧金山湾区多家创业公司的面试。我一边面试,一边继续提升自己的技术力。
加深数据分析基础
后来我又参加了一个数据分析基础课程。这门课程对于加深之前在Coursera课程中学到的许多概念非常有用。
我坚信,跟不同的老师学习概念可以提供新的见解。再次学习统计信息和机器学习概念时,觉得好简单。我觉得我对这门课程有了更深入的了解。
在完成这门课程以后,我通过了旧金山的一家医疗保健创业公司的面试,并续签了工作签证,回到了美国。
获得数据科学的工作机会
我认为我在最后的面试中很成功,因为我拥有良好的编程能力以及统计学的知识,但更重要的是,我拥有医疗保健领域的知识、实验设计和科学方法的专业知识。
在我看来,正是这些方面帮助我从众多申请人中脱颖而出,并获得了在这家创业公司工作的机会。当时的我只是初级数据科学工作者,而且还需要实战经验和培训。我认为我完成的所有课程足以打动招聘团队,而我在医疗保健领域的专业经验更让我占据优势。
因此,如果你希望自己的职业生涯也向数据科学转变,那么我建议你在自己现有知识领域内找工作。
我希望当初自己学习哪些知识?
在开始新的数据科学工作之前,我希望自己能够恶补一下如何在命令行中使用Git。我以前从未使用过终端或命令行,也不知道如何使用git将代码提交到公司的Github代码库。我花了很多时间才上手。如果在开始新工作前,我就有这方面的经验,那么就不会浪费同事们的宝贵时间了。虽然同事们非常友好,似乎不介意教我,但刚开始的几天我确实感到很内疚。
如果你也在考虑通过自学进入数据科学领域,那么我鼓励你坚持到底!这绝对是我的正确选择。不同的人会选择不同的学习方式,但如果你自律性很好,那么通过在线课程自学数据科学完全可行。我祝你好运!如果有任何问题,请在下方留言。
【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
原文发布时间:2020-05-14
本文作者:Kate Marie Lewis
本文来自:“csdn”,了解相关信息可以关注“csdn”
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
推荐 10个 NB的 IDEA 插件,开发效率至少提升一倍
>友情提示:插件虽好,可不要贪装哦,装多了会 卡 、卡 、卡 ~ 正经干活用的 分享一点自己工作中得心应手的IDEA插件,可不是在插件商店随随便便搜的,都经过实战检验,用过的都说好。可能有一些大家用过的就快速划过就行了。 1、GenerateAllSetter 实际的开发中,可能会经常为某个对象中多个属性进行 set 赋值,尽管可以用BeanUtil.copyProperties()方式批量赋值,但这种方式有一些弊端,存在属性值覆盖的问题,所以不少场景还是需要手动 set。如果一个对象属性太多 set 起来也很痛苦,GenerateAllSetter可以一键将对象属性都 set 出来。 快捷键:Alt+Enter 2、Alibaba Java Coding Guidelines 阿里出品的《Java 开发手册》时下已经成为了很多公司新员工入职必读的手册,前一段阿里发布了《Java 开发手册(泰山版)》, 又一次对Java开发规范做了完善。不过,又臭又长的手册背下来是不可能的,但集成到IDEA开发工具中就方便很多。 举个栗子:开发手册上不允许用Executors去创建线程池,而是...
- 下一篇
一文搞懂华为HMS ML Kit文本识别,银行卡识别,通用卡证识别,身份证识别
一文搞懂华为HMS ML Kit文本识别,银行卡识别,通用卡证识别,身份证识别 1前言 查看华为开发者联盟网站的机器学习服务业务介绍(https://developer.huawei.com/consumer/cn/doc/development/HMS-Guides/ml-introduction-4) 可以看到华为HMS把机器学习服务纳入了文本类,语言类,图片类,人脸人体类四大服务,后面新特性同时不断增加中,其中某些类是文本类服务,文本类服务里面又含了文本识别,文档识别,身份证识别,银行卡识别,通用卡证识别,这些子服务之间都有一些差异和关联呢,可能很多小伙伴会傻傻分不清,今天小编重点剖析下文本类服务,来看下这几个子服务间的差异和关联。 2应用场景差异 首先看下文本类服务包含的子服务内容和对应的场景差异 服务 场景差异 说明 文字识别 稀疏的文本,收据,名片 支持的识别范围和场景“广”,啥都能识别,只要是拉丁字符,日韩,中英的文字都可以识别。 文档识别 包含文档的密集文本图片,尺寸文章,合同等 需要识别出带一级格式的文本信息,此处需要更多云端的运算能力,有更广泛的语言种类支持能力。 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- MySQL8.0.19开启GTID主从同步CentOS8
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Hadoop3单机部署,实现最简伪集群