《数据科学家修炼之道》一2.2 新规则
本节书摘来异步社区《数据科学家修炼之道》一书中的第2章,第2.2节,作者: 【美】Zacharias Voulgaris(弗格里斯)译者: 吴文磊 , 田原 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.2 新规则 数据科学带来了许多新规则的繁荣,这些新规则由一些很棒的工具组成,主要有如下几种。 MapReduce是一个并行、分布式的算法,用来把负责的任务分割成一系列简化的任务,之后用一种非常有效率的手段解决它们,基于此可以增加处理复杂任务的性能以及降低计算资源的成本。尽管这个算法之前就存在,但它在数据科学中的广泛应用仍增加了它的知名度。 Hadoop分布式文件系统(HDFS)是一个旨在充分利用并行计算技术的开源平台,它基本上是通过把大数据分拆成小块然后分发给在网络上计算机来实现管理。 高级文本分析常常是指自然语言处理(NLP),这是一个数据信息领域,包含许多从非结构化文本数据提取有效信息和商业智能的技术。在数据科学之前,这个领域并不存在。 大规模数据程序语言(例如Pig、R、ECL等)是可以有效地处理大数据集的编程语言。它们在数据科学出现前处于开发状态或完...
