专访阿里王峰:Hadoop生态下一代计算引擎-streaming和batch的统一
编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况。本次InfoQ便采访了阿里搜索离线基础平台团队负责人王峰,和大家一起聊一聊Hadoop。
问:您是2009年开始关注Hadoop生态技术发展,并逐步将其引入阿里电商搜索技术体系。那时的Hadoop生态圈是怎样的?可否介绍下Hadoop在阿里的历史?
王峰:对于Hadoop,我个人很早就了解了。Hadoop 06年出来,我们07在雅虎中国见到用Hadoop做search,搜索引擎是大数据的第一个应用场景。当时和雅虎美国合
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Yarn上运行spark-1.6.0
Yarn上运行spark-1.6.0.pdf 目录 目录 1 1.约定 1 2.安装Scala 1 2.1.下载 2 2.2.安装 2 2.3.设置环境变量 2 3.安装Spark 2 3.1.下载 2 3.2.安装 2 3.3.配置 3 3.3.1.修改conf/spark-env.sh 3 4.启动Spark 3 4.1.运行自带示例 3 4.2.SparkSQLCli 4 5.和Hive集成 4 6.Java开发 5 7.常见错误 5 7.1.错误1:unknownqueue:thequeue 5 7.2.SPARK_CLASSPATHwasdetected 6 8.相关文档 7 1.约定 本文约定Hadoop2.7.1安装在/data/hadoop/current,而Spark1.6.0被安装在/data/hadoop/spark,其中/data/hadoop/spark为指向/data/hadoop/spark。 Spark官网为:http://spark.apache.org/(Shark官网为:http://shark.cs.berkeley.edu/,Shark已成为...
- 下一篇
Spark源码分析之四:Stage提交
各位看官,上一篇《Spark源码分析之Stage划分》详细讲述了Spark中Stage的划分,下面,我们进入第三个阶段--Stage提交。 Stage提交阶段的主要目的就一个,就是将每个Stage生成一组Task,即TaskSet,其处理流程如下图所示: 与Stage划分阶段一样,我们还是从handleJobSubmitted()方法入手,在Stage划分阶段,包括最好的ResultStage和前面的若干ShuffleMapStage均已生成,那么顺理成章的下一步便是Stage的提交。在handleJobSubmitted()方法的最后两行代码,便是Stage提交的处理。代码如下: // 提交最后一个stage submitStage(finalStage) // 提交其他正在等待的stage submitWaitingStages() 从代码我们可以看出,Stage提交的逻辑顺序,是由后往前,即先提交最后一个finalStage,即ResultStage,然后再提交其parent stages,但是实际物理顺序是否如此呢?我们首先看下finalStage的提交,方...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池