Spark 整合hive 实现数据的读取输出-低调大师

Spark 整合hive 实现数据的读取输出

2017-11-03 705

实验环境: linux centOS 6.7 vmware虚拟机

spark-1.5.1-bin-hadoop-2.1.0

apache-hive-1.2.1

eclipse 或IntelJIDea 本次使用eclipse.

代码:

 
          import 
          org.apache.spark.SparkConf; 
         
          import 
          org.apache.spark.api.java.JavaSparkContext; 
         
          import 
          org.apache.spark.sql.DataFrame; 
         
          import 
          org.apache.spark.sql.hive.HiveContext; 
         
          public 
          class 
          SparkOnHiveDemo { 
         
          public 
          static 
          void 
          main(String[] args) { 
         
          // 首先还是创建SparkConf 
         
          SparkConf conf = 
          new 
          SparkConf().setAppName(
          "HiveDataSource"
          ); 
         
          // 创建JavaSparkContext 
         
          JavaSparkContext sc = 
          new 
          JavaSparkContext(conf); 
         
          // 创建HiveContext，注意，这里，它接收的是SparkContext作为参数，不是JavaSparkContext 
         
          HiveContext hiveContext = 
          new 
          HiveContext(sc.sc()); 
         
          //1.可以使用HiveContext 下面的sql(xxx语句)执行HiveSQL语句 
         
          //1 .删除表，创建表 
         
          // stars_infos ,stars_scores 
         
          hiveContext.sql(
          "DROP TABLE IF EXISTS stars_infos"
          ); 
         
          hiveContext.sql(
          "CREATE TABLE IF NOT EXISTS stars_infos(name STRING,age INT) " 
         
          + 
          "row format delimited fields terminated by ','"
          ); 
         
          //2.向表里面导入数据 
         
          hiveContext.sql(
          "LOAD DATA " 
         
          + 
          "LOCAL INPATH " 
         
          + 
          "'/root/book/stars_infos.txt' " 
         
          + 
          "INTO TABLE stars_infos"
          ); 
         
          hiveContext.sql(
          "DROP TABLE IF EXISTS stars_scores"
          ); 
         
          hiveContext.sql(
          "CREATE TABLE IF NOT EXISTS stars_scores(name STRING,score INT) " 
         
          + 
          "row format delimited fields terminated by ','"
          ); 
         
          hiveContext.sql(
          "LOAD DATA " 
         
          + 
          "LOCAL INPATH " 
         
          + 
          "'/root/book/stars_score.txt' " 
         
          + 
          "INTO TABLE stars_scores"
          ); 
         
          //3.从一张已经存在的hive表里面拿数据，转换为DF 
         
          DataFrame superStarDataFrame = hiveContext.sql(
          "SELECT si.name,si.age,ss.score " 
         
          + 
          "FROM stars_infos si " 
         
          + 
          "JOIN stars_scores ss ON si.name=ss.name " 
         
          + 
          "WHERE ss.score>=90"
          ); 
         
          //4.把DF的数据再持久化到hive中去,千万别和registerTemtable搞混了 
         
          hiveContext.sql(
          "DROP TABLE IF EXISTS superStar"
          ); 
         
          superStarDataFrame.saveAsTable(
          "superStar"
          ); 
         
          //5.直接从Hive中得到DF 
         
          hiveContext.table(
          "superStar"
          ).show(); 
         
          sc.close(); 
         
          } 
         
          }

元数据:

可以下载附件，然后上传到指定的目录下。

把程序打包jar后上传到linux指定的目录下，写一个脚本。脚本附件见正文。具体内容修改即可。

运行脚本就可以了。当然要保证MySQL数据库正常，hive正常。

附件：http://down.51cto.com/data/2366931

本文转自 ChinaUnicom110 51CTO博客，原文链接:http://blog.51cto.com/xingyue2011/1956798

微信关注我们

原文链接：https://yq.aliyun.com/articles/545596

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

spark入门知识和job任务提交流程

spark是Apache开源社区的一个分布式计算引擎，基于内存计算，所以速度要快于hadoop. 下载地址spark.apache.org 安装复制一台单独的虚拟机，名c 修改其ip，192.168.56.200 修改其hostname为c，hostnamectl set-hostname c 修改/etc/hosts加入对本机的解析重启网络服务 systemctl restart network 上传spark安装文件到root目录解压spark到/usr/local下，将其名字修改为spark 本地运行模式使用spark-submit提交job cd /usr/local/spark ./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000 使用spark-shell进行交互式提交创建root下的文本文件hello.txt ./bin/spark-shell 再次连接一个terminal，用jps观察进程...

2017-11-03

622

phoenix

Phoenix4.7.0安装1.phoenix安装拷贝phoenix-4.7.0-HBase-1.1-bin.tar.gz文件到linux的/usr/tools目录下面解压：tar –zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz生成新的目录phoenix-4.7.0-HBase-1.1-bin将其配置到环境变量中去 phoenix export PHOENIX_HOME=/usr/tools/phoenix-4.7.0-HBase-1.1-binexport PHOENIX_CLASSPATH=$PHOENIX_HOME/libexport PATH=$PATH:$PHOENIX_HOME/bin配置完以后是环境变量生效source /etc/profile 2.hbase设置将/usr/tools/phoenix-4.7.0-HBase-1.1-bin目录下面的phoenix-4.7.0-HBase-1.1-server.jar文件拷贝到每一台HRegionServer的hbase安装目录的lib目录下面去cp phoenix-4.7.0-HBase...

2017-11-03

703

发表评论

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。