专访阿里王峰：Hadoop生态下一代计算引擎-streaming和batch的统一-低调大师

专访阿里王峰：Hadoop生态下一代计算引擎-streaming和batch的统一

2016-02-16 872

编者按：Hadoop于2006年1月28日诞生，至今已有10年，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。在2016年Hadoop十岁生日之际，InfoQ策划了一个Hadoop热点系列文章，为大家梳理Hadoop这十年的变化，技术圈的生态状况。本次InfoQ便采访了阿里搜索离线基础平台团队负责人王峰，和大家一起聊一聊Hadoop。

问：您是2009年开始关注Hadoop生态技术发展，并逐步将其引入阿里电商搜索技术体系。那时的Hadoop生态圈是怎样的？可否介绍下Hadoop在阿里的历史？

王峰：对于Hadoop，我个人很早就了解了。Hadoop 06年出来，我们07在雅虎中国见到用Hadoop做search，搜索引擎是大数据的第一个应用场景。当时和雅虎美国合

微信关注我们

原文链接：https://yq.aliyun.com/articles/5591

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Yarn上运行spark-1.6.0

Yarn上运行spark-1.6.0.pdf 目录目录 1 1.约定 1 2.安装Scala 1 2.1.下载 2 2.2.安装 2 2.3.设置环境变量 2 3.安装Spark 2 3.1.下载 2 3.2.安装 2 3.3.配置 3 3.3.1.修改conf/spark-env.sh 3 4.启动Spark 3 4.1.运行自带示例 3 4.2.SparkSQLCli 4 5.和Hive集成 4 6.Java开发 5 7.常见错误 5 7.1.错误1：unknownqueue:thequeue 5 7.2.SPARK_CLASSPATHwasdetected 6 8.相关文档 7 1.约定本文约定Hadoop2.7.1安装在/data/hadoop/current，而Spark1.6.0被安装在/data/hadoop/spark，其中/data/hadoop/spark为指向/data/hadoop/spark。 Spark官网为：http://spark.apache.org/（Shark官网为：http://shark.cs.berkeley.edu/，Shark已成为...

2016-02-16

654

各位看官，上一篇《Spark源码分析之Stage划分》详细讲述了Spark中Stage的划分，下面，我们进入第三个阶段--Stage提交。 Stage提交阶段的主要目的就一个，就是将每个Stage生成一组Task，即TaskSet，其处理流程如下图所示：与Stage划分阶段一样，我们还是从handleJobSubmitted()方法入手，在Stage划分阶段，包括最好的ResultStage和前面的若干ShuffleMapStage均已生成，那么顺理成章的下一步便是Stage的提交。在handleJobSubmitted()方法的最后两行代码，便是Stage提交的处理。代码如下： // 提交最后一个stage submitStage(finalStage) // 提交其他正在等待的stage submitWaitingStages() 从代码我们可以看出，Stage提交的逻辑顺序，是由后往前，即先提交最后一个finalStage，即ResultStage，然后再提交其parent stages，但是实际物理顺序是否如此呢？我们首先看下finalStage的提交，方...

2016-02-16

752

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。