开源大数据周刊-第19期
阿里云E-Mapreduce动态
1.5.0版本(正在研发)
- 增加集群整体运行情况的仪表盘
- 访问OSS不需要写id、key,增强安全性
- 集群其中后,可以重启、修改配置及安装软件
1.6.0版本
- 交互式查询(支持hive、spark)
资讯
- 马云:云计算、大数据、人工智能 未来三十年会成基本公共服务
未来三十年,云计算、大数据、人工智能,都会成为基本的公共服务,各行各业都会经受巨大的变化。”阿里巴巴董事局主席马云18日出席2016中国保险业发展年会时表示,“物流业、制造业、服务业、金融业、教育,所有的行业,在这场技术革命之下改变是不可避免的。” - E-MapReduce支持计算与存储分离,成本下降1倍
众观历史,分久必合、合久必分,在计算机历史中也很类似,如今,Hadoop也许到了计算与存储分离的阶段。 - 13个应用案例,讲述最真实的

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark——分布式并行计算概念
一,概念 一个资源密集型的任务,需要一组资源并行的完成,当计算机任务过重,就把计算任务拆分,然后放到多个计算节点上同时执行,这就是分布式并行计算啦。分布式并行计算,强调用硬件的堆叠,来解决问题。 spark解决的问题:有了spark,只要把数据和程序交给spark,它会机智地进行数据切分、算法复制、分布执行、结果合并。spark屏蔽了分布并行计算的细节,让我们可以快速开发分布并行的应用。 二,基于数据集的计算框架 spark的计算范式是数据集上的计算,在实用spark的时候,要按照spark的范式写算法。Spark在数据集的层次上进行分布并行计算,它只认成堆的数据。 提交给spark的任务,都必须满足两个条件: 数据是可以分块的,每块构成一个集合。 算法只能在集合级别执行操作。 比如,对于文本文件,在Spark中,一行就是一条记录,若干条记录组成一个集合。我们 原来的算法直接在每一行上进行计算,就不行了。需要先构建数据集,然后通过数据集的操作, 实现我们的目的。 所以,Spark是一种粗粒度、基于数据集的并行计算框架。 三,Spark基本概念及拆分任务的流程 1...
- 下一篇
hive数据迁移
比如需要把生产的hive集群数据迁移到另一个集群,hive提供了2个命令工具,可以实现表的批量迁移。 [export/import] 设置默认需要导出的hive数据库 在hive目录/etc/alternatives/hive-conf下添加.hiverc vi ~/.hiverc use test; 创建数据临时目录 hdfs dfs -mkdir /tmp/test 生成导出数据脚本 hive -e "show tables " | awk '{printf "export table %s to |/tmp/hive-export/%s|;\n",$1,$1}' | sed "s/|/'/g" > /home/hive/qcf/export.hql 手工导出数据到hdfs hive -f export.hql - 下载hdfs数据到本地并传送到目标hadoop集群的/tmp/ test 目录 先get到本地: hdfs dfs -get /tmp/ test /* 然后put到目标集群上 hdfs dfs -put * /tmp/test 构造导入语句 cp export....
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS8编译安装MySQL8.0.19
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS关闭SELinux安全模块
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Docker快速安装Oracle11G,搭建oracle11g学习环境