Hadoop 一二事(1) - 简单介绍与杂谈-低调大师

Hadoop 一二事(1) - 简单介绍与杂谈

2016-04-22 690

大数据大数据，身边很多朋友都在谈大数据，Big Data！！！

到底是什么，用来干嘛的，也很少有人说得出一二，那今天开始就简单说说这一二事吧

hadoop 的来源：是作者女儿的一个玩具 - 一只黄色的大象

发音 /hadu:p/

在Apache旗下作为一个开源项目

它不是云计算，却是云计算中的一部分，属于大数据这块

hadoop是一个开源的分布式计算系统

hadoop所解决的问题：

海量数据存储 - HDFS （分布式文件系统，分布在多台电脑上进行存储）可以理解为一个大型的网盘，例如百度网盘，115网盘，可以进行上传下载

海量数据分析 - MapReduce （分布式的计算模型）有多台机子进行数据的分析，例如原来工地有一个人搬砖，一次性搬100块砖头，后来分为100个人，每个人搬10块，同时会有老大工头监控这些小弟

hadoop擅长日志分析

现在的淘宝使用Stome来进行实时推荐

凌晨分析后的产生有用的数据，分为冷数据和热数据，冷数据存放在MyFox中（Mysql集群），热数据存放在Prom中（HBase集群）

实时流数据处理使用Storm，可以用于购买商品时实时推送推荐商品

Hive可以用于附近认识的人，朋友圈你可能认识的人，校内网（从网，或者说人人网）中的推荐认识的好友

现在hadoop已经出到了2，但是很多公司还是会基于1.0版本，因为稳定，也省去了迁移的风险

生态圈，各种掉渣天高大上（非常喜欢zookeeper）

hadoop的安装有2种

本地模式：使用eclipse进行调试，只有一个map，只有一个reduce

伪分布式：模拟多台机子，进行调试

集群模式：生产环境

微信关注我们

原文链接：https://yq.aliyun.com/articles/324917

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MapReduce编程实现学习

MapReduce主要包括两个阶段：一个是Map，一个是Reduce. 每一步都有key-value对作为输入和输出。 Map阶段的key-value对的格式是由输入的格式决定的，如果是默认的TextInputFormat,则每行作为一个记录进程处理，其中key为此行的开头相对文件的起始位置，value就是此行的字符文本。Map阶段的输出的key-value对的格式必须同reduce阶段的输入key-value对的格式相对应。下面开始尝试，假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/- Text文本样例： 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 0043011990999991950051518-0011+ 0043012650999991949032412+0111+ 0043012650999991949032418+0078+ 0067011990999...

2016-04-22

587

最近利用闲暇时间，又重新研读了一下Storm。认真对比了一下Hadoop，前者更擅长的是，实时流式数据处理，后者更擅长的是基于HDFS，通过MapReduce方式的离线数据分析计算。对于Hadoop，本身不擅长实时的数据分析处理。两者的共同点都是分布式的架构，而且，都类似有主/从关系的概念。本文中我就不具体阐述Strom集群和Zookeeper集群如何部署的问题，我想通过一个实际的案例切入，分析一下如何利用Storm，完成实时分析处理数据的。 Storm本身是Apache托管的开源的分布式实时计算系统，它的前身是Twitter Storm。在Storm问世以前，处理海量的实时数据信息，大部分是类似于使用消息队列，加上工作进程/线程的方式。这使得构建这类的应用程序，变得异常的复杂。很多的业务逻辑中，你不得不考虑消息的发送和接收，线程之间的并发控制等等问题。而其中的业务逻辑可能只是占据整个应用的一小部分，而且很难做到业务逻辑的解耦。但是Storm的出现改变了这种局面，它首先抽象出数据流Stream的抽象概念，一个Stream指的是tuples组成的无边界的序列。后面又继续提出Spouts、...

2016-04-22

646

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。