初体验SQL Server 2012的Hadoop连接器-低调大师

初体验SQL Server 2012的Hadoop连接器

2017-09-27 524

本文讲的是初体验SQL Server 2012的Hadoop连接器,电影《天下无贼》中一句经典的“21世纪什么最贵?人才!”，体现了以人为本的价值观。而实际上，深处大数据时代的我们，是不是也应该幽默一回：“21世纪什么最值钱?数据!”。对于企业而言，除了人才，数据也是最重要资产之一。

　　“大”数据的价值

　　面对如此庞大的数据，企业该如何挖掘其中的商机呢?这里给出一些应用场景，简单梳理一下大数据的价值所在：

　　·在以用户为中心的SNS网络中，通过大数据的分析，可以感知客户的情绪(正面，负面)变化，从而分析预测用户对公司产品的评价，以及更加关注哪些产品等等。

　　·在工业设备制造中，传感器数据有利于监控设备运营，指定检修时间表等。

　　·GPS时空数据有有利于预测用户的位置，未来的消费欲望等。

　　·RFID数据有利于物流系统及时跟踪库存量。

　　Hadoop的“大”数据优势

　　实际上，在数据时代，人们面临更多的是离散的结构化数据，与之有关的是关系数据库的大量运用，例如微软的SQL Server。而在大数据时代，除了关系数据之外，人们还面临着大量的非结构数据，而这正是Hadoop的价值所在。作为一个分布式系统基础架构，Hadoop支持对大量数据进行分布式处理。对于开发者而言，Hadoop的威力在于：用户无需了解分布式底层细节，即可使用Hadoop开发分布式程序，充分利用集群的高性能计算和存储资源。现如今，作为Apache基金会的开源项目，Hadoop无疑是大数据领域的佼佼者。

　　什么是SQL Server 2012的Hadoop连接器

　　作为计算时代的引领者，微软深知，云计算离不开大数据，而SQL Server 2012正是微软云计算数据服务战略的重要步骤，它融合了Hadoop 连接器技术，让SQL Server 也跨入了非结构化大数据领域。

　　图1显示的SQL Server 2012的体系结构。不难看出，SQL Server 2012是一个支持结构化、非结构化和实时数据的完整数据平台。有了Hadoop的加盟，SQL Server 2012可以轻而易举地支持企业级Hadoop分布式非结构化数据。

▲图 1. SQL Server 大数据框架

　　具体来说，Hadoop连接器提供了Hadoop非结构数据与SQL Server结构化数据之间的双向迁移能力。而Hive ODBC驱动程序则支持Hive和Microsoft BI 工具(如PowerPivot和Power View)的直接连接，另外，Microsoft Excel与Hadoop的数据交互也可通过Hive附加程序实现。

　　除了Hadoop连接器，另一个连接器SQL Server Parallel Data Warehouse (PDW) connector for Hadoop，也提供Hadoop与SQL Server PDW数据之间的双向迁移。

　　使用Hadoop连接的最大价值在于：云计算客户可以自由地在结构化数据与非结构化数据之间来回穿梭。

　　体验SQL Server 2012的Hadoop连接器

　　前面提到，Hadoop是一个Apache基金会支持的开源分布式大数据处理框架，能并行处理不同节点的大数据。而作为Hadoop的文件系统，HDFS为用户应用提供了文件级存储支持。

　　SQL Server支持的Hadoop连接器的基础是Sqoop连接器，主要目标是提供SQL Server与Hadoop之间的数据转换，即结构化数据与非结构化数据之间的双向数据迁移。

　　下面，结合SQL Server 2012与Hadoop的双向数据转换，我们简单演示以下SQL Server Hadoop连接器的功能。

　　1. 将SQL Server 2012数据导入到Hadoop

　　Hadoop存储数据的介质包括文件系统HDFS与数据库Hive两部分。因此，SQL Server 2012导入到Hadoop也分为两部分。

　　清单1演示的是将SQL Server 2012中名叫testdb的数据库中的testtable表导入到Hadoop的文件系统HDFS中。

　　清单1

$bin / sqoop import -- connect ' jdbc:sqlserver://192.168.0.1;username=dbuser;password=dbpasswd;database=testdb' --table testtable --target-dir /data/testData

　　前面提到，SQL Server Hadoop连接器基于Sqoop，因此，这里的命令为sqoop，对应的导入参数为import –connect。作为源数据库，jdbc:sqlserver 的URL指定了SQL Server 2012对应的主机名192.168.0.1，数据库用户名dbuser与密码dbpasswd。与此同时，还指定了数据库名称testdb以及对应的数据表testtable。而作为目标Hadoop，这里指定了HDFS的目录——/data/testData。

　　为了加速导入，我们可以采用并行的方式，如清单2所示：

　　清单2

$bin / sqoop import -- connect ' jdbc:sqlserver://192.168.0.1;username=dbuser;password=dbpasswd;database=testdb' --table testtable --target-dir /data/testData --split-by id -m 4

　　清单2是在清单1的基础上，选择-m选项来启动4个进程，同时进行数据的导入操作。--split选项则指定基于数据表中的哪一列进行拆分。我们简单解释下其中的并行工作原理。

　　a)首先，SQL Server连接器会执行一个查询

select max(id) as max, select min(id) as min from test

　　通过查询，获取到需要拆分字段(id)的最大值和最小值，假设分别是1和1000。

　　b) 然后，Sqoop会根据需要并行导入的数量，进行拆分查询，并行导入将拆分为如下4条SQL同时执行：

select * from test  where 0 <= id < 250 ;
select * from test  where 250 <= id < 500 ;
select * from test  where 500 <= id < 750 ;
select * from test where 750 <= id < 1000 ;

　　这样，就达到了并行导入的目的。

　　除了默认的文本文件，HDFS还支持二进制文件，也称为序列化文件sequencefile。清单3是在清单1的基础上，使用--as-sequencefile选项，指定导出文件格式为二进制文件，而非清单1所示的文本文件。

　　清单3

$bin / sqoop import -- connect ' jdbc:sqlserver://192.168.0.1;username=dbuser;password=dbpasswd;database=testdb' --table testtable --target-dir /data/testData --as-sequencefile

　　以上3个例子都是描述SQL Server 数据库与HDFS文件的转换。清单4则是描述SQL Server数据库与Hive数据库的转换，即结构化数据库向非结构化数据库的数据导入。

　　清单4

$bin / sqoop import -- connect ' jdbc:sqlserver://192.168.0.1;username=dbuser;password=dbpasswd;database=testdb' --table testtable --target-dir /data/testData –hive-import

　　注意，在执行该命令之前，请确保环境变量HIVE_HOME(即Hive的安装目录)被正确设置。

　　图2显示的是将SQL Server数据库GameWeibo的数据表blacklist导入到Hadoop当中，后台启动MapReduce作业执行导入操作。

　　可以通过Hadoop提供的Web视图，查看MapReduce导入作业的ID、名称、作业状态等信息，如图3所示。

　　现在，可以查看Hadoop的HDFS文件中的数据，如图4所示。

　　2. 将Hadoop数据导出到SQL Server 2012

　　很显然，这一部分的内容与前一部分的内容正好相对，因此，对应的导出命令为export。

　　清单5显示的将Hadoop的文件系统HDFS中的/data/testData目录的数据导出到SQL Server 2012中名叫testdb的数据库中的testtable表中。与清单1相比，除了参数从import改成export，--target-dir也变成了--export-dir。

　　清单5

$bin / sqoop export -- connect ' jdbc:sqlserver://192.168.0.1;username=dbuser;password=dbpasswd;database=testdb' --table testable --export-dir /data/testData

　　清单6是清单2的逆过程，这里不做过多解释。

　　清单6

$bin / sqoop export -- connect ' jdbc:sqlserver://192.168.0.1;username=dbuser;password=dbpasswd;database=testdb' --table testable --export-dir /data/testData –m 4

　　对于其它Export命令操作，读者可使用Import命令的逆向思维来思考，这里不再举例赘述。

　　为了方便读者理解，以下给出的是SQL Server Hadoop连接器最常用13命令的解释说明。

序号

命令

描述说明

1

impor

从关系型数据库中导入数据(来自表或者查询语句)到HDFS中

2

export

将HDFS中的数据导入到关系型数据库中

3

codegen

获取数据库中某张表数据生成Java并打成jar包

4

create-hive-table

创建Hive表

5

eval

查看SQL执行结果

6

import-all-tables

导入某个数据库下所有表到HDFS中

7

job

列出所有数据库名

8

list-databases

列出某个数据库下所有表

9

list-tables

查看帮助

10

merge

查看版本

11

metastore

从关系型数据库中导入数据(来自表或者查询语句)到HDFS中

12

help

将HDFS中的数据导入到关系型数据库中

13

version

获取数据库中某张表数据生成Java并打成jar包

　　小结

　　总之，有了Hadoop连接器的支持，SQL Server 2012是一个可支持结构化、非结构化和实时的数据的完整数据库平台，用户实现了结构化数据与非结构化数据的双向迁移。

作者：李培帅

来源： IT168

原文标题：初体验SQL Server 2012的Hadoop连接器

微信关注我们

原文链接：https://yq.aliyun.com/articles/222411

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

未来大数据的处理和发展的五个趋势

本文讲的是未来大数据的处理和发展的五个趋势,近几年，大数据已经从大公司独有的流行词和概念变成了驱动我们数字生活发展的动力。下面是未来大数据的处理和发展的五个趋势。 1.数据科学越来越大众化随着像Coursera、Udacity和Edx等这些和数据分析相关的网络教育平台的流行，越来越多的人不用花一分钱便可以学到所有的知识，从基础的统计学知识到自然语言处理和机器学习。除了这个，Oxdata化简和集成了R语言后推出的分析产品，Quid正在做的具有机器学习和人工智能概念的工具也设计了傻瓜式的使用界面和形象具体的用户展示方法。更有像Kaggle这样的公司推出了关于预测模型的众包平台。所以大数据的处理的趋势之一便是像Datahero，Infogram和Statwing他们一样，把数据分析变得易用，大众。 2.Hadoop对MapReduce的依赖越来越小 Hadoop平台只为MapReduce服务的时代从Hadoop的2.0版本开始正式结束了。新版本支持的产品和服务将会和Cloudera的Impala一样用一个SQL 查询引擎，或者其他的方法来替代MapReduce。HBase NoSQL数据库...

2017-09-28

531

本文讲的是2013年预测：大数据带来的五大挑战，John Bantleman是RainStor的CEO，有着20多年的从业经验。他在《连线》上发表了一篇文章称大数据在2013年将成为企业需要面对的重要问题之一，并且对今年大数据带来的挑战进行了5个方面的预测。以下为文章全文： 2012年，大数据已经被证明是一个重要的趋势，并且对来年的大数据市场进行了很多的预测。现实情况是，客户将最终决定大数据的发展趋势，也将决定使用哪些技术解决方案来解决他们的独特业务问题。在如今由数据驱动发展的世界里，企业为了保持竞争力，大数据已成为它们必须解决问题。就像云计算发展在过去的几年中的起起伏伏，它现在已经开始促使企业改变其基础设施建设，以应对复杂的挑战。根据最近的一项研究表明，大数据的数量预计将在2013年增加约60%，这个问题预计不会很快消失。所以应该能看到，企业在2013年会面对大数据带来的商业或技术方面的挑战。我们可以肯定一件事——在2013年，无论是大数据方面的技术变革还是公司董事会在产业上的决策，都将产生变化。预测1：企业大数据主动从Sandbox迁出，并定义一套明确的业务和技术需求在2...

2017-09-28

520

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。