数据科学家必备工具有哪些?
当数据科学家需要使用某些软件时,其中一部分我们已经在之前的章节中做过介绍,这些软件涵盖了数据科学家所需要的基础专业内容。实际的工作范畴可能会超越求职时候的工作描述,这也是IT工作的常态之一。这在某种程度上是好的,因为它提供了学习新技能的机会,而这也是数据科学领域最引人入胜的方面之一。 在这一章中,我们会探索数据科学环境中常用的软件。不是所有在这里提到的软件都会在你的工作中用到,但了解它们会让你拥有更多选择。特别是我们会提到Hadoop套件的一些其他备选工具(例如Spark、Storm等),许多功能强大的面向对象编程语言(Java、C++、C#、Ruby和Python),现有的数据分析软件(R、Matlab、SPSS、SAS或是Stata),你可能会用到的虚拟化程序以及大数据集成系统(例如IBM的BigInsights、Cloudera等)。我们还会看看你可能接触到的其他软件,例如GIT、Excel、Eclipse、Emcien以及Oracle。注意这个列表只是告诉你这一领域的主流软件有哪些,但它们并不一定是你在未来工作中的真实环境下所使用的工具。一些公司可能会用到它所在行业的专业软件,...