《Hadoop与大数据挖掘》一2.4.2　MapReduce原理-低调大师

《Hadoop与大数据挖掘》一2.4.2　MapReduce原理

2017-06-25 680

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.4.2节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4.2　MapReduce原理

1.通俗理解MapReduce原理
现在你接到一个任务，给你10本长篇英文小说，让你统计这10本书中每一个单词出现的次数。这便是Hadoop编程中赫赫有名的HelloWorld程序：词频统计。这个任务的结果形式如表2-6所示。

即在这10本书中a共出现了12300次，ai共出现了63次……依次计算出每一个单词出现多少次。天啊，这个工作必须由专业人士做呀，自己做的话还不累死呀。这时你可以把这个工作外包给一支职业分布式运算工程队做。
分布式运算工程队中按岗位有Mapper、Mapper助理Comb-iner、Map

微信关注我们

原文链接：https://yq.aliyun.com/articles/110159

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《Hadoop与大数据挖掘》一2.4.1　HDFS Java API操作

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.4.1节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4.1　HDFS Java API操作 Hadoop中关于文件操作类基本上是在org.apache.hadoop.fs包中，这些API能够支持的操作有：打开文件，读写文件，删除文件，创建文件、文件夹，判断是文件或文件夹，判断文件或文件夹是否存在等。Hadoop类库中最终面向用户提供的接口类是FileSystem，这个类是个抽象类，只能通过类的get方法得到其实例。get方法有几个重载版本，如图2-28所示。比较常用的是第一个，即灰色背景的方法。FileSystem针对HDFS相关操作的API如表2-5所示。代码清单2-22，是FileS

2017-06-25

589

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.4.3节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4.3　动手实践：编写Word Count程序并打包运行 1）打开Eclipse，新建MapReduce工程，如图2-35、图2-36所示。需要配置Hadoop的安装目录，因为这里的Eclipse安装在Windows系统上，所以这里的Hadoop安装目录就是指Hadoop安装包的解压目录。建好的工程如图2-37所示（注意，这里还有相关jar包没有列出）。2）参考上一节的代码编写单词计数程序。 3）使用Eclipse的Export中的JAR file工具打包成jar包，如图2-38、图2-39所示。 4）获取导出的jar包，通过Linux连接

2017-06-25

578

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。