Python&R语言-python和r相遇

前言

  如果你是数据分析领域的新兵,那么你一定很难抉择——在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如“我想学习机器语言,我应该用哪个编程语言”或者“我想快速解决问题,我应该用R还是Python”等这类问题。尽管两个编程语言目前都是数据分析社区的佼佼者,但是它们仍在为成为数据科学家的首选编程语言而战斗。

  最近几年,用R和Python的人越来越多,于是出现了众多关于用哪个做数据分析最好的争议。从整体来说,个人认为数据分析需要的是在有限时间内,用最可行的方式拿到最有用的结果。因此,不应该局限于任何单一的编程方法,而应该是各取所长,根据个人特点,问题的形式而灵活选取或者结合。

  Python和R是统计学中两种最流行的的编程语言,关于R做数据分析的优势已经不言而喻了,众多和全面的统计方法使得从方法上来说,R的数据分析能力(模型方法众多且可视化功能强大)是其它语言不能比拟的。其实争议最多的也就是出现在其计算性能和全面性上。而Python因为编程灵活方便,语法易于理解而被大家所接受。如何将两者结合起来,发挥更大的作用,值得探索。


目录

  • 1.R简介

  • 2.Python简介

  • 3.R&Python相遇

1. R简介

  R(又称R语言)是一款开源的跨平台的数值统计和数值图形化展现工具。通俗点说,R是用来做统计和画图的。R拥有自己的脚本语言和大量的统计、图形库(得益于开源社区),这让她看起来既美又实用。与其他同类软件(如 SPSS)相比,R的特点是纯命令行的,这倒也好,我们更应该把注意力放在数据本身,而非统计工具的UI。

  Ross Ihaka和Robert Gentleman于1995年在S语言中创造了开源语言R,目的是专注于提供更好和更人性化的方式做数据分析、统计和图形模型的语言。起初R主要是在学术和研究使用,但近来企业界发现R也很不错。这使得中的R成为企业中使用的全球发展最快的统计语言之一。

  R的主要优势是它有一个庞大的社区,通过邮件列表,用户贡献的文档和一个非常活跃的堆栈溢出组提供支持。还有CRAN镜像,一个用户可以很简单地创造的一个包含R包的知识库。这些包有R里面的函数和数据,各地的镜像都是R网站的备份文件,完全一样,用户可以可以选择离你最近的镜像访问最新的技术和功能,而无需从头开发。

  R虽说有一套自己的语言,还挺完备,但她最专业的还是做统计和画图,而像连接数据库、文本处理、文件操作等这些脏活可不能委屈R来干哪,这些得有其 他语言来负责,我的选择是咱最熟悉的、做这些脏活最棒的Python。

  如果你是一个有经验的程序员,你可以不会觉得使用R可以提高效率,但是,你可能会发现学习R经常会遇到瓶颈。幸运的是现在的资源很多。

2. Python简介

  Python([KK] 英语发音: /\'paɪθɑn/, [DJ] 英语发音: /ˈpaiθən/),是一种面向对象、直译式的计算机程序设计语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。Python的语法非常简捷和清晰,与其它计算机程序设计语言最大的不同在于,它采用缩进来定义语句块。

  Python的官方介绍是:Python是一种简单易学,功能强大的编程语言,它有高效率的高层数据结构,能简单而有效地实现面向对象编程。Python简洁的语法和对动态输入的支持,再加上解释性语言的本质,使得它在大多数平台上的很多领域都是一个理想的脚本语言,特别适用于快速的应用程序开发。

  Python是由Guido van Rossem创建于1991年,并强调效率和代码的可读性。希望深入的数据分析或应用统计技术的程序员是Python的主要用户。

  当你越需要在工程环境中工作,你会越喜欢Python。它是一种灵活的语言,在处理一些新东西上表现很好,并且注重可读性和简单性,它的学习曲线是比较低的。

  和R类似,Python也有包,pypi是一个Python包的仓库,里面有很多别人写好的Python库。

  Python也是一个大社区,但它是一个有点比较分散,因为它是一个通用的语言。然而,Python自称他们在数据科学中更占优势地位:预期的增长,更新颖的科学数据应用的起源在这里。

3. R&Python相遇

  • a).运算速度:

  针对于程序速度的比较,有众多的测试方法和不同的结果。比如,这个链接里的结果(http://attractivechaos.github.io/plb/)。

  综合其他各个地方的测试结果,其实大体说来从基本运算速度来说,Python > R. 但是要注意,这里所说的运算速度是“基本计算”。也就是说不涉及引用特殊package,不用特殊数据结构和运算方式(比如R中的矢量化运算)的运算。而这样的运算比较很大程度上取决于基本程序逻辑的速度,比如for循环。R在这点的表现是很差的。基本上会比pyhon慢 3~10倍。

  但是,如果你愿意多花些心思更好的利用矢量化编程进行计算,那么无论从程序的长度来是速度上,都会使R的表现有显著性提高。我之前的一个帖子做过这样的比较 (http://bbs.pinggu.org/thread-1042435-1-1.html),具体的内容就不重复了。总之,在这样的使用方式下,对大部分运算,R的速度是可以和python接近的,当然,用户也需要花更多地心思去优化程序。

  除此之外,在实际使用的角度来说,数据分析在R中大部分时候使用已有的方法,因此可以使用众多已经成型的package。如果你使用的package质量很好,通常在大计算量的程序中,作者实际使用的都是更低级更高效的语言(比如C, Fortran)。因此,这些大计算量的步骤实际上是以最高效的方式完成的。如果相应的运算在pyhon里面没有调用其他低级语言的优化,R就可以在这些方面胜过python。我这里说到的是不需要自己编写的底层语言调用,在R和python中都可以实现调用别的语言,但是这需要用户自己编程,从人工角度来讲,专业性较高,不在讨论范围。

  整体来说,对于对R使用和编程有一定深入理解的人来说,我不认为R做数据分析的速度会比python差。但是对于简单粗暴的编程方式,python的确更胜一筹。

  • b).全面性:

  从这点来说,我认为Python的确胜过R。无论是对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处理,Python都有着明显优势。毕竟,python本身是作为一门计算机编程语言出现的,而R本身只是源于统计计算。所以从语言的全面性来说,两者差异显著。

  综上所述,本人认为,对于本地文件直接的数据分析,大部分时候R是比较Python更好的 (速度相近,但分析更专业)。如果涉及多方资源的协调(比如远程、数据库、系统、网页),那么最好的方式是将python和R相结合使用。

  当然,每种语言有自己的学习曲线。因此学习本身也要多花时间,因此如何选取还要依赖于个人而论。

  • c).优势对比:

    • 在以下领域中,Python 比R 更有优势:

        ◆ 网络爬虫和数据抓取:虽然R中的rvest已经简化了网页抓取, Python的beautifulsoup和Scrapy更加成熟,并提供更多的功能。
        ◆ 数据库连接:虽然R有大量的用于连接到数据库的选项, Python的sqlachemy只用了一个程序包就提供了所有的数据库连接功能,并可广泛用于生产环境。
      
    • 而在以下领域中,R比Python更有优势:

        ◆ 统计分析选项:尽管Python的SciPy和 Pandas以及 statsmodels的组合提供了很大的一套统计分析工具,而R是专门围绕着统计分析应用等创建的,因此提供了更多的相关工具。
        ◆ 交互式图像或控制板:bokeh, plotly和intuitics最近都把Python的图形使用扩展到了Web浏览器,但是举个使用shiny的例子,R中的shiny 控制面板运行速度更快,而且往往需要更少的代码。
      

    此外,由于数据科学团队现在拥有一个比较广泛的技能库,任何应用程序所选择的编程语言都可能用到以前的知识和经验。对于一些应用,特别是原型设计和开发应用,人们使用他们已知的工具则速度会更快。

    • 纯文本 的“Air Gap(网闸)”策略

      指在完全断开网络物理连接的基础上,实现合法信息的共享。本文中指用纯文本文件实现两种语言间代码的共享——译者注。使用纯文本作为两种语言之间的物理隔离,你需要按如下步骤进行。

        1.从命令行中重构你的R和Python脚本,并接受命令行参数。
        2.输出共享数据到公共文件格式。
        3.在一种语言中执行另一种语言,按要求传递参数。
      
    • 优势:

        ★ 最简单的方法,通常最快
        ★ 可以轻松查看中间输出结果
        ★ 已有常见文件格式,如: CSV , JSON , YAML的解析器
      
    • 劣势:

        ☆ 需要事先商定一个共同的模式或文件格式
        ☆ 如果流程变长的话,难以管理中间输出结果和路径
        ☆ 如果数据量变大,本地磁盘读写将成为瓶颈
      
  • d).R和Python:数据科学行业的表现:

      ★ 如果你看一下最近的民意调查,在数据分析的编程语言方面,R是明显的赢家。
      ★ 有越来越多的人从研发转向Python。此外,有越来越多的公司使用这两种语言来进行组合。
      ★ 如果你打算从事数据行业,你用好学会这两种语言。招聘趋势显示这两个技能的需求日益增加,而工资远高于平均水平。
    

4. 总结

  这两种语言从一开始都具有非常显著的优缺点。从历史上看,尽管把两者分割开来是因为教育背景:统计学家们倾向用R,而程序员则选择了Python语言。然而,随着数据科学家的增加,这种区别开始变得模糊起来。数据科学家就是这样一种人:软件工程师中最懂统计学,统计学家中最会编程的人。由于这两种语言各自提供大量独特的库资源,对能够利用这两种语言的相对优势的数据科学家的需求正在不断增长。