E-MapReduce弹性低成本离线大数据分析
作者:明誉
大数据是一项涉及不同业务和技术领域的技术和工具的集合,海量离线数据分析可以应用于多种商业系统环境,例如,电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。
离线大数据分析概述
主流的三大分布式计算框架系统分别为Hadoop、Spark和Storm:
- Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集。
- Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,能够与Hadoop很好地结合。
- Storm适用于处理高速、大型数据流的分布式实时计算,为Hadoop添加可靠的实时数据处理能力。
海量离线数据分析可以应用于多种场景,例如:
- 商业系统环境:电商海量日志分析、用户行为画像分析。
- 科研行业:海量离线计算分析和数据查询。
- 游戏行业:游戏日志
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云自助建站方式汇总
为了方便您搭建网站,本文汇总了阿里云云市场上最常用的应用镜像的使用教程,并提供了教程和云市场镜像的链接,让您一键触达,轻松建站。 网站类型 推荐 OS 镜像及其内含资源 说明 搭建 WordPress 博客 - CentOS- Ubuntu- Aliyun Linux Aliyun Linux 一键安装 Web 环境- Nginx: 1.4.4- Apache: 2.2.29、2.4.10- MySQL: 5.1.73、5.5.40、5.6.21- PHP: 5.2.17、5.3.29、5.4.23、5.5.7- PHP 扩展: Memcached、Zend Engine/Opcache- JDK: 1.7.0- Tomcat: 7.0.54- FTP:(yum/apt-get 安装)- PHPWind: 8.7 GBK- PHPMyAdmin: 4.1.8 - WordPress 是一款常用的搭建个人博客网站的软件。- 暂不支持自动挂载 I/O 优化的数据盘。 使用资源编排ROS部署 LNMP 环境 - CentOS- Ubuntu- Aliyun Linux ROS- Nginx-...
- 下一篇
趣头条基于 Flink+ClickHouse 构建实时数据分析平台
作者:王金海@趣头条 摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分: 一、业务场景与现状分析 二、Flink-to-Hive 小时级场景 三、Flink-to-ClickHouse 秒级场景 四、未来发展与思考 一、业务场景与现状分析 趣头条查询的页面分为离线查询页面和实时查询页面。趣头条今年所实现的改造是在实时查询中接入了 ClickHouse 计算引擎。根据不同的业务场景,实时数据报表中会展现数据指标曲线图和详细的数据指标表。目前数据指标的采集和计算为每五分钟一个时间窗口,当然也存在三分钟或一分钟的特殊情况。数据指标数据全部从 Kafka 实时数据中导出,并导入 ClickHouse 进行计算。 二、Flink-to-Hive 小时级场景 1.小时级实现架构图 如下图所示,Database 中的 Binlog 导出到 Kafka,同时 Log Server 数据也会上报到 Kafka。所有数据实时落地到 Kafka 之后,通过 Flink 抽取到 HDFS。...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Mario游戏-低调大师作品
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G