Kylin设置JDBC配置greenplum数据源
Kylin设置JDBC配置greenplum数据源
kylin最开始的时候支持hive和kafka作为数据源,从2.3.0版本之后开始支持JDBC作为第第三种数据源。用户可以自定义的数据库或者数据仓库到自己的kylin集群。比如,mysql,postgresql,greenplum等。
- 支持原理
需要了解到的是,kylin设置完jdbc作为数据源,是通过sqoop来实现的,他并不是摒弃了底层的hive,而是使用sqoop将你配置的数据源的数据抽取到hive中,kylin通过在hive中生成的表来做cube的预计算。计算完之后,再将导入的临时数据删除。 - 配置JDBC数据源
首先,在kylin集群安装完之后,自行安装sqoop。注意sqoop的1.0和2.0版本相去甚远,一般在生产环境中不会使用2.0版本,同时需要注意sqoop和hbase的版本兼容问题,一般是sqoop1.x+hbase0.x。
第二步,准备jdbc driver。需要将你要配置的数据库的JDBC Driver配置搭配kylin和sqoop中,路径$KYLIN_HOME/ext和$SQOOP_HOME/lib。注意:mysql的驱动可以不加载,kylin2.3.1已经集成。
第三步,配置kylin.properties文件。
Mysql样例:
MYSQL
kylin.source.default=8
kylin.source.jdbc.connection-url=jdbc:mysql://10.4.6.226:3306/test
kylin.source.jdbc.driver=com.mysql.jdbc.Driver
kylin.source.jdbc.dialect=mysql
kylin.source.jdbc.user=root
kylin.source.jdbc.pass=326936
kylin.source.jdbc.sqoop-home=/home/zhouwang/sqoop-1.4.6/bin
kylin.source.jdbc.filed-delimiter=|
kylin.source.jdbc.sqoop-mapper-num=4
Greenplum样例:
GP
kylin.source.default=8
kylin.source.jdbc.connection-url=jdbc:postgresql://192.168.71.11:5432/testdb
kylin.source.jdbc.driver=org.postgresql.Driver
kylin.source.jdbc.dialect=default
kylin.source.jdbc.user=zhouwang
kylin.source.jdbc.pass=326936
kylin.source.jdbc.sqoop-home=/home/zhouwang/sqoop-1.4.6/bin
kylin.source.jdbc.filed-delimiter=|
kylin.source.jdbc.sqoop-mapper-num=4
注意:kylin.source.jdbc.sqoop-mapper-num这个参数是用来指定sqoop有多少个map数的。kylin.source.default这个参数是用来指定数据源类型的,默认是0,代表的是hive,8代表的是自己配置的数据源,也就是只能有一种数据源,如果想要有多种数据源需要再project的级别配置这些参数(2.4.0之后版本才有此功能)。
- 加载Greenplum数据
重启 Kylin 让改变生效。您现在可以从 JDBC 数据源加载表。访问 Kylin web 然后导航到数据源面板。点击 Load table 按钮然后输入表名,或点击 “Load Table From Tree” 按钮然后选择要加载的表。不检查 Calculate column cardinality 因为对于 JDBC 数据源这个功能并不支持。点击 “Sync”,Kylin 通过 JDBC 接口加载表定义。当表加载成功后您可以查看表和列,和 Hive 相似。
注意:需要再greenplum的date/master/gpseg-1/pg_hba.conf里面配置你要访问gp的机器的ip授权。
- Model和cube的使用
唯一与hive作为数据源不一样的地方就是cube在build的时候,第一步是从greenplum把数据导入到hive,后续的build步骤就与greenplum无关,与之前并无差别。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
搞懂分布式技术24:基于Flume+Kafka+ Elasticsearch+Storm的海量日志实时分析平台:
0背景介绍 随着机器个数的增加、各种服务、各种组件的扩容、开发人员的递增,日志的运维问题是日渐尖锐。通常,日志都是存储在服务运行的本地机器上,使用脚本来管理,一般非压缩日志保留最近三天,压缩保留最近1个月,其它直接删除或迁移到日志服务器上。 运维会将这些日志mount到远程的日志服务器上,然后开发人员使用运维分配的账号登陆堡垒机器跳转到日志服务器上查看不同项目不同机器的日志。 下图是日志服务器某一个项目的所有ip日志目录截图,相信大家传统的查看日志类似这样。 如果你要查阅不同的项目,项目机器数十上百的话,将会是非常繁琐和低效的事,并且运维管理、账户安全都是需要解决的问题。另外如果你要对这些日志进行实时分析统计,你会发现无从下手,用shell等脚本语言只能处理非常简单需求,难于满足业务的发展,所以当务之急是要将所有日志集中化管理,将所有服务器上的日志收集汇总。 为此需要设计一个集中式海量日志实时处理系统,它需要满足产品需求(实时看日志、统计历史日志、实时行为分析、用户轨迹跟踪等)、满足运维需求(项目上下线日志管理、日志开关在线管理等)、性能需求(具有高吞吐能力、高扩展性、高容错性)。 ...
- 下一篇
Kylin集群部署和cube使用
Kylin集群部署和cube使用 安装集群环境节点 Kylin节点模式 Ip 内存 磁盘 Node1 All 192.167.71.11 2G 80GNode2 query 192.168.71.12 1.5G 80GNode3 query 192.168.71.13 1.5G 80GKylin工作原理如下: 集群时间同步Ntp服务自行设置 安装kylin之前所需要的环境Hadoop-2.7.4 Hbase-1.4.0Spark-2.2.0 可选Zookeepr-3.3.6Hive-2.1.1 使用mysql存放元数据,远程模式安装Kylin-2.3.1Hadoop环境,HBASE,zookeeper还有hive自行安装,集群环境变量如下: HADOOP export HADOOP_HOME=/home/zhouwang/hadoop-2.7.4export HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HAD...
相关文章
文章评论
共有0条评论来说两句吧...