2013年北京hadoop in china见闻
谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和深度挖掘。
非技术的来看,本次大会传递的信息有:
- 银行、电信也在用hadoop
- hadoop生态圈依然是大数据相关技术的首选
- 国内很多大小公司正在使用hadoop
- 因为开源,所以繁荣
技术来看,本次大会传递的信息有:
- YARN将是下一代hadoop平台,多种计算模型即将随YARN一起整合资源。
- 硬件结合hadoop来提升性能。
- 可以尝试在虚拟机上做YARN,如EMR。
- 准实时的时代即将到来,也可以说spark等基于内存的分布式时代即将到来。
数据的收集、交换

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Hadoop2.6.0版本MapReudce示例之WordCount(二)
继《Hadoop2.6.0版本MapReudce示例之WordCount(一)》之后,我们继续看MapReduce的WordCount示例,看看如何监控作业运行或查看历史记录,以及作业运行时的文件目录及列表。 1、监控作业运行或查看历史记录 在WordCount的输出内容中,有这么一句:The url to track the job: http://server2:8088/proxy/application_1459913635503_0004/,这个是追踪作业运行的意思,登录后,可以查看Job整体情况、配置信息Configuration、Map Tasks情况、Reduce Tasks情况、Job计数器Counters、作业历史JobHistory等情况,分别如下图所示: 1.1、Job整体情况 Job整体情况包括作业名、提交用户名、作业队列、作业状态、提交时间、开始时间、完成时间、耗时、平均Map耗时、平均Shuffle耗时、平均合并耗时、平均聚合耗时、Map、Reduce任务各自总数及完成数、Map、Reduce任务尝试运行各自总数、失败数、杀死...
-
下一篇
2015年上海hadoop in china见闻
过程 今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。下面讲述下我听的一些场次: 上午场次: 孙先生讲的 《Towards consistent distributed system》,给我们带来了从CAP理论出发,以新的视角去看待分布式系统,怎么权衡去设计分布式软件系统。 cloudera中国区的CTO,苗先生的《hadoop and cloudera》讲述了公司的发展,08年成立,目前1000人左右,54%的hadoop Committer,hadoop从批处理往实时化方向发展,基本听下来就是公司对hadoop有很大的控
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2整合Redis,开启缓存,提高访问速度
- 设置Eclipse缩进为4个空格,增强代码规范
- 面试大杂烩
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)