《Hadoop实战手册》一第1章 Hadoop分布式文件系统—

《Hadoop实战手册》一第1章 Hadoop分布式文件系统——导入和导出数据

2017-05-01 535

本节书摘来异步社区《Hadoop实战手册》一书中的第1章，作者：【美】Jonathan R. Owens , Jon Lentz , Brian Femiano 译者：傅杰 , 赵磊 , 卢学裕责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

第1章 Hadoop分布式文件系统——导入和导出数据

Hadoop实战手册
本章我们将介绍：

使用Hadoop shell命令导入和导出数据到HDFS
使用distcp实现集群间数据复制
使用Sqoop从MySQL数据库导入数据到HDFS
使用Sqoop从HDFS导出数据到MySQL
配置Sqoop以支持SQL Server
从HDFS导出数据到MongoDB
从MongoDB导入数据到HDFS
使用Pig从HDFS导出数据到MongoDB
在Greenplum外部表中使用HDFS
利用Flume加载数据到HDFS中

微信关注我们

原文链接：https://yq.aliyun.com/articles/96705

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark 源码分析 -- task实际执行过程

Spark源码分析 – SparkContext中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给TaskScheduler, 然后等待调度, 最终到Executor上执行 val sc = new SparkContext(……) val textFile = sc.textFile("README.md") textFile.filter(line => line.contains("Spark")).count() 这是一个比较简单的没有shuffle的例子, 看看在Executor上是如何被执行的首先这个job只有一个stage, 所以只会产生resultTask 最关键的执行语句, func(context, rdd.iterator(split, context)) 对于这个例子, func就是最终产生结果的count(), 而rdd就是count前最后一个rdd, 即filter产生的rdd 可以看到Spark中rdd的执行, 不是从前往后, 而是从后往前推的, 为什么? ...

2017-05-02

579

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第3章，第3.3节独立应用程序编程，作者于俊　向海　代其锋　马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看 3.3　独立应用程序编程不同于使用Spark Shell自动初始化SparkContext的例子，独立应用程序需要初始化一个SparkContext作为程序的一部分，然后将一个包含应用程序信息的SparkConf对象传递给SparkContext构造函数。接下来编写简单应用程序SimpleApp，并描述一些简单的编码流程。3.3.1　创建SparkContext对象编写一个Spark程序，首先创建SparkConf对象，该对象包含应用的信息。SparkConf对象构建完毕，需要创建SparkContext对象，该对象可以访问Spark集群。 // 创建Spa

2017-05-02

585

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。