《Hadoop实战第2版》——2.2节在Mac OSX上安装与配置Hadoop-低调大师

《Hadoop实战第2版》——2.2节在Mac OSX上安装与配置Hadoop

2017-07-31 620

2.2　在Mac OSX上安装与配置Hadoop

由于现在越来越多的人使用Mac Book，故笔者在本章中增加了在Mac OS X上安装与配置Hadoop的内容，供使用Mac Book的读者参考。

2.2.1　安装Homebrew
Mac OS X上的Homebrew是类似于Ubuntu下apt的一种软件包管理器，利用它可以自动下载和安装软件包，安装Homebrew之后，就可以使用Homebrew自动下载安装Hadoop。安装Homebrew的步骤如下：
1）从Apple官方下载并安装内置GCC编译器—Xcode（现在版本为4.2）。安装Xcode主要是因为一些软件包的安装依赖于本地环境，需要在本地编译源码。Xcode的下载地址为https://developer.apple.com/xcode/。
2）使用命令行安装Homebrew，输入

微信关注我们

原文链接：https://yq.aliyun.com/articles/173958

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

巧用MapReduce+HDFS，海量数据去重的五大策略

随着存储数据信息量的飞速增长，越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。重复数据删除往往是指消除冗余子文件。不同于压缩，重复数据删除对于数据本身并没有改变，只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。举个简单的例子：在专门为电信运营商定制的呼叫详单去重应用程序中，我们就可以看到删除重复数据的影子。同样的，对于包含相同数据包的通信网络，我们可以使用这种技术来进行优化。在存储架构中，删除重复数据的一些常用的方法包括：哈希、二进制比较和增量差分。在HadoopSphere这篇文章中，将专注于如何利用MapReduce和HDFS来消除重复的数据。(下面列出的方法中包括一些学者的实验方法，因此把术语定义为策略比较合适)。策略1：只使用HDFS和MapReduce Owen O’Malley在一个论坛的帖子中建议使用以下方法：让你的历史数据按照MD5值进行排序。运行一个MapReduce的作业，将你的新数据按照MD5进行排序。需要注意的是：你要做所有数据...

2017-07-31

596

在这篇文章中，我们Spark的其它机器学习API，名为Spark ML，如果要用数据流水线来开发大数据应用程序的话，这个是推荐的解决方案。关键点：了解机器学习数据流水线有关内容。怎么用Apache Spark机器学习包来实现机器学习数据流水线。数据价值链处理的步骤。 Spark机器学习流水线模块和API。文字分类和广告检测用例。 Spark ML(spark.ml)包提供了构建在DataFrame之上的机器学习API，它已经成了Spark SQL库的核心部分。这个包可以用于开发和管理机器学习流水线。它也可以提供特征抽取器、转换器、选择器，并支持分类、汇聚和分簇等机器学习技术。这些全都对开发机器学习解决方案至关重要。在这里我们看看如何使用Apache Spark来做探索式数据分析(Exploratory Data Analysis)、开发机器学习流水线，并使用Spark ML包中提供的API和算法。因为支持构建机器学习数据流水线，Apache Spark框架现在已经成了一个非常不错的选择，可以用于构建一个全面的用例，包括ETL、指量分析、实时流分析、机器学习、图处理和可视化等...

2017-07-31

570

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。