列式存储系列(二): Vertica
作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。
本文是列式存储系列的第二篇。在上一篇,我们介绍了C-Store,一个列式存储数据库。在本篇,我们讲述 C-Store 的继任者——Vertica。C-Store 是一个概念原型,在这个概念原型提出并发表后,Stonebraker 着手建立了一家公司研发商用的列式分析型数据库,公司名字就叫 Vertica。2011 年 Vertica 被惠普公司收购。2012 年,Vertica 公布了它的论文:《The Vertica Analytic Database:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
好程序员大数据学习路线分享Hadoop阶段的高可用配置
好程序员大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制Ha机制即Hadoop的高可用(7*24小时不中断服务)正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HAHDFS的HA机制详解HDFS 的HA主要是通过双namenode协调工作实现双namenode协调工作的要点: A、元数据管理方式需要改变: 内存中各自保存一份元数据 Edits日志只能有一份,只有Active状态的namenode节点可以做写操作 两个namenode都可以读取edits 共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现) B、需要一个状态管理功能模块 实现了一个zkfailover,常驻在每一个namenode所在的节点 每一个zkfailover负责监控自己所在namenode节点,利用zk进行状态标识 当需要进行状态切换时,由zkfailover来负责切换 切换时需要防止brain split脑裂现象的发生 Namenode的运行原理两台服务器...
- 下一篇
HIVE优化浅谈
HIVE优化浅谈 作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。 引言 随着商务/运营同学执行的HQL越来越多,整体HIVE执行效率变低,本文从HIVE切入,分析HQL面临的问题和待优化部分,结合其他大数据框架来解决实际问题。以下内容没有针对业务代码提供优化建议. 常见的HQL select型 设置hive.fetch.task.conversion=none会以集群模式运行,无论是否有limit。在数据量小时建议使用hive.fetch.task.conversion=more,此时select配合limit以单机执行获取样本数据,执行更快 常见的select配合order by/group by等基本操作不在此赘述 注:select查询可以通过split.maxsize和split.minsize控制并发MAPPER数量 insert型 分为两种 insert into insert overwrite 配合分区可以达到重写分区或者...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6