数据科学入门丨选Python还是R-低调大师

数据科学入门丨选Python还是R

2018-07-09 582

对于想入门数据科学的新手来说，选择学Python还是R语言是一个难题，本文对两种语言进行了比较，希望能帮助你做出选择。

我是德勤的数据科学家主管，多年来我一直在使用Python和R语言，并且与Python社区密切合作了15年。本文是我对这两种语言的一些个人看法。

第三种选择

针对这个问题，Studio的首席数据科学家Htley Wickham认为，比起在二者中选其一，更好的选择是让两种语言合作。因此，这也是我提到的第三种选择，我在文本最后部分会探讨。

如何比较R和Python

对于这两种语言，有以下几点值得进行比较：

· 历史：
R和Python的发展历史明显不同，同时有交错的部分。

· 用户群体：
包含许多复杂的社会学人类学因素。

· 性能：
详细比较以及为何难以比较。

· 第三方支持：
模块、代码库、可视化、存储库、组织和开发环境。

· 用例：
根据具体任务和工作类型有不同的选择。

· 是否能同时使用：
在Python中使用R，在R中使用Python。

· 预测：
内部测试。

· 企业和个人偏好：
揭晓最终答案。

历史

简史：

ABC语言 - > Python 问世(1989年由Guido van Rossum创立) - > Python 2(2000年) - > Python 3(2008年)

Fortan语言 - > S语言(贝尔实验室) - > R语言问世(1991年由Ross Ihaka和Robert Gentleman创立) - > R 1.0.0(2000年) - > R 3.0.2(2013年)

用户群体

在比较Python与R的使用群体时，要注意：

只有50％的Python用户在同时使用R。

假设使用R语言的程序员都用R进行相关“科学和数字”研究。可以确定无论程序员的水平如何，这种统计分布都是真实。

这里回到第二个问题，有哪些用户群体。整个科学和数字社区包含几个子群体，当中存在一些重叠。

使用Python或R语言的子群体：

· 深度学习

· 机器学习

· 高级分析

· 预测分析

· 统计

· 探索和数据分析

· 学术科研

· 大量计算研究领域

虽然每个领域几乎都服务于特定群体，但在统计和探索等方面，使用R语言更为普遍。在不久之前进行数据探索时，比起Python，R语言花的时间更少，而且使用Python还需要花时间进行安装。

这一切都被称为Jupyter Notebooks和Anaconda的颠覆性技术所改变。

Jupyter Notebook：增加了在浏览器中编写Python和R代码的能力;

Anaconda：能够轻松安装和管理Python和R。

现在，你可以在友好的环境中启动和运行Python或R，提供开箱即用的报告和分析，这两项技术消除了完成任务和选择喜欢语言间的障碍。Python现在能以独立于平台的方式打包，并且更快地提供快速简单的分析。

社区中影响语言选择的另一个因素是“开源”。不仅仅是开源的库，还有协作社区对开源的影响。讽刺的是，Tensorflow和GNU Scientific Library等开源软件(分别是Apache和GPL)都与Python和R绑定。虽然使用R语言的用户很多，但使用Python的用户中有很多纯粹的Python支持者。另一方面，更多的企业使用R语言，特别是那些有统计学背景的。

最后，关于社区和协作，Github对Python的支持更多。如果看到最近热门的Python包，会发现Tensorflow等项目有超过3.5万的用户收藏。但看到R的热门软件包，Shiny、Stan等的收藏量则低于2千。

性能

这方面不容易进行比较。

原因是需要测试的指标和情况太多。很难在任何一个特定硬件上测试。有些操作通过其中一种语言优化，而不是另一种。

循环

在此之前让我们想想，如何比较Python与R。你真的想在R语言写很多循环吗？毕竟这两种语言的设计意图不太相同。

{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "%load_ext rpy2.ipython"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "def do_loop(u1):\n",
    "\n",
    "    # Initialize `usq`\n",
    "    usq = {}\n",
    "\n",
    "    for i in range(100):\n",
    "      # i-th element of `u1` squared into `i`-th position of `usq`\n",
    "      usq[i] = u1[i] * u1[i]\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "%%R\n",
    "do_loop <- function(u1) {\n",
    "    \n",
    "    # Initialize `usq`\n",
    "    usq <- 0\n",
    "\n",
    "    for(i in 1:100) {\n",
    "      # i-th element of `u1` squared into `i`-th position of `usq`\n",
    "      usq[i] <- u1[i]*u1[i]\n",
    "    }\n",
    "\n",
    "}"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "1.58 ms ± 42.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)\n"
     ]
    }
   ],
   "source": [
    "%%timeit -n 1000\n",
    "%%R\n",
    "u1 <- rnorm(100)\n",
    "do_loop(u1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "36.9 µs ± 5.99 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)\n"
     ]
    }
   ],
   "source": [
    "%%timeit -n 1000\n",
    "u1  = np.random.randn(100)\n",
    "do_loop(u1)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}

Python为0.000037秒，R为0.00158秒

包括加载时间和在命令行上运行：R需要0.238秒，Python需要0.147秒。强调，这并不是科学严谨的测试。

测试证明，Python的运行速度明显加快。通常这并没有太大影响。

除了运行速度外，对于数据科学家而言哪种性能更重要？两种语言之所以受欢迎是因为它们能被用作命令语言。例如，在使用Python时大多时候我们都很依赖Pandas。这涉及到每种语言中模块和库，以及其执行方式。

第三方支持

Python有PyPI，R语言有CRAN，两者都有Anaconda。

CRAN使用内置的install.packages命令。目前，CRAN上有大约1.2万个包。其中超过1/2的包都能用于数据科学。

PyPi中包的数量超过前者的10倍，约有14.1万个包。专门用于科学工程的有3700个。其中有些也可以用于科学，但没有被标记。

在两者中都有重复的情况。当搜索“随机森林”时，PyPi中可以得到170个项目，但这些包并不相同。

尽管Python包的数量是R的10倍，但数据科学相关的包的数量大致相同。

运行速度

比较DataFrames和Pandas更有意义。

我们进行了一项实验：比较针对复杂探索任务的执行时间，结果如下：

在大多数任务中Python运行速度更快。

来源：
http://nbviewer.jupyter.org/gist/brianray/4ce15234e6ac2975b335c8d90a4b6882

可以看到，Python + Pandas比原生的R语言DataFrames更快。注意，这并不意味着Python运行更快，Pandas 是基于Numpy用C语言编写的。

可视化

这里将ggplot2与matplotlib进行比较。

matplotlib是由John D. Hunter编写的，他是我在Python社区中最敬重的人之一，他也是教会我使用Python的人。

Matplotlib虽然不易学习但能进行定制和扩展。ggplot难以进行定制，有些人认为它更难学。

如果你喜欢漂亮的图表，而且无需自定义，那么R是不错的选择。如果你要做更多的事情，那么Matplotlib甚至交互式散景都不错。同样，R的ShinnyR能够增加交互性。

是否能同时使用

可能你会问，为什么不能同时使用Python和R语言?

以下情况你可以同时使用这两种语言：

· 公司或组织允许；

· 两种都能在你的编程环境中轻松设置和维护；

· 你的代码不需要进入另一个系统；

· 不会给合作的人带来麻烦和困扰。

一起使用两种语言的方法是：

· Python提供给R的包：如rpy2、pyRserve、Rpython等；

· R也有相对的包：rPython、PythonInR、reticulate、rJython，SnakeCharmR、XRPython

· 使用Jupyter，同时使用两者，例子如下：

之后可以传递pandas的数据框，接着通过rpy2自动转换为R的数据框，并用“-i df”转换：

来源：
http://nbviewer.jupyter.org/gist/brianray/734bd54f468d9a6db9171b2cfc98405a

预测

Kaggle上有人对开发者使用R还是Python写了一个Kernel。他根据数据发现以下有趣的结果：

· 如果你打算明年转向Linux，则更可能是Python用户；

· 如果你研究统计数据，则更可能使用R；如果研究计算机科学，则更可能使用Python；

· 如果你还年轻(18-24岁)，则更可能是Python用户；

· 如果你参加编程比赛，则更可能是Python用户；

· 如果你明年想使用Android，则更可能是Python用户；

· 如果你想在明年学习SQL，则更可能是R用户；

· 如果你使用MS office，则更可能是R用户；

· 如果你想在明年使用Rasperry Pi，则更可能是Python用户；

· 如果你是全日制学生，则更可能是Python用户；

· 如果你使用的敏捷方法(Agile methodology)，则更可能是Python用户；

· 如果对待人工智能，比起兴奋你更持担心态度，则更可能是R用户。

企业和个人偏好

当我与Googler和Stack Overflow的大神级人物Alex Martelli交流时，他向我解释了为什么Google最开始只官方支持少数几种语言。即使是在Google相对开发的环境中，也存在一些限制和偏好，其他企业也是如此。

除了企业偏好，企业中第一个使用某种语言的人也会起到决定性作用。第一个在德勤使用R的人他目前仍在公司工作，目前担任首席数据科学家。我的建议是，选择你喜欢的语言，热爱你选择的语言，起到领导作用，并热爱你的事业。

当你在研究某些重要的内容时，犯错是难以避免的。然而，每个精心设计的数据科学项目都为数据科学家留有一些空间，让他们进行实验和学习。重要的是保持开放的心态，拥抱多样性。

最后就我个人而言，我主要使用Python，之后我期待学习更多R的内容。

原文链接：
https://blog.usejournal.com/python-vs-and-r-for-data-science-833b48ccc91d

原文发布时间为：2018-07-09
本文作者：Brian Ray
本文来自云栖社区合作伙伴“CDA数据分析师 ”，了解相关信息可以关注“CDA数据分析师”

微信关注我们

原文链接：https://yq.aliyun.com/articles/608806

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

在Firefox 58中，WebAssembly组件性能提升了10倍

Mozilla在Firefox 58中为WebAssembly（WASM）组件推出了一套双层编译系统，号称解析和编译WASM代码的速度达到30-60MB/s，足够在有线网络中实现实时编译。基准测试表明，新版的性能比旧版提高了10倍，比Chrome快10倍以上。在Mozilla Hacks博客的一篇文章中，Lin Clark列举了一些测出的性能数据：在一部台式机上，我们编译WebAssembly代码的速度高达30-60MB每秒，比网络传输数据包的速度都快。使用Firefox Nightly或Beta的用户可以在自己的设备上体验这一进步。即使在性能一般的移动设备上编译速度也有8MB/s，快过绝大多数移动网络的平均下载带宽。独立测试人员复现了类似的测试结果。 Reddit用户a_potato_is_missing用Luke Wagner的tanks编译速度测试做了对比，他使用一台安装了安卓系统的华为P10 Lite进行测试，结果显示，在Firefox v57中的编译速度为1.7MB/s，换成Firefox v58就提升到了11.8MB/s。 Windows 10桌面平台的测试中，编译...

2018-07-09

666

我们知道，Dubbo 缺省协议采用单一长连接，底层实现是 Netty 的 NIO 异步通讯机制；基于这种机制，Dubbo 实现了以下几种调用方式：同步调用异步调用参数回调事件通知同步调用同步调用是一种阻塞式的调用方式，即 Consumer 端代码一直阻塞等待，直到 Provider 端返回为止；通常，一个典型的同步调用过程如下： Consumer 业务线程调用远程接口，向 Provider 发送请求，同时当前线程处于阻塞状态； Provider 接到 Consumer 的请求后，开始处理请求，将结果返回给 Consumer； Consumer 收到结果后，当前线程继续往后执行。这里有 2 个问题： Consumer 业务线程是怎么进入阻塞状态的？ Consumer 收到结果后，如果唤醒业务线程往后执行的？其实，Dubbo 的底层 IO 操作都是异步的。Consumer 端发起调用后，得到一个 Future 对象。对于同步调用，业务线程通过Future#get(timeout)，阻塞等待 Provider 端将结果返回；timeout则是 Consumer 端定义的超时...

2018-07-09

653

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。