大数据从业者应该知道的开源工具(全)
前言
想要成为大数据工程师这些开源工具你要有所了解
一、Hadoop相关工具
1. Hadoop
Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。
支持的操作系统:Windows、Linux和OS X。
相关链接:http://hadoop.apache.org
2. Ambari
作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。
支持的操作系统:Windows、Linux和OS X。
相关链接:http://ambari.apache.org
3. Avro
这个Apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用JSON来定义,它很容易与动态语言整合起来。
支持的操作系统:与操作系统无关。
相关链接:http://avro.apache.org
4. Cascading
Cascading是一款基于Hadoop的应用程序开发平台。提供商业支持和培训服务。
支持的操作系统:与操作系统无关。
相关链接:http://www.cascading.org/projects/cascading/
5. Chukwa
Chukwa基于Hadoop,可以收集来自大型分布式系统的数据,用于监控。它还含有用于分析和显示数据的工具。
支持的操作系统:Linux和OS X。
相关链接:http://chukwa.apache.org
6. Flume
Flume可以从其他应用程序收集日志数据,然后将这些数据送入到Hadoop。官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”
支持的操作系统:Linux和OS X。
相关链接:https://cwiki.apache.org/confluence/display/FLUME/Home
7. HBase
HBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。
支持的操作系统:与操作系统无关。
相关链接:http://hbase.apache.org
8. Hadoop分布式文件系统(HDFS)
HDFS是面向Hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。它基于Java,具有容错性、高度扩展性和高度配置性。
支持的操作系统:Windows、Linux和OS X。
相关链接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html
9. Hive
Apache Hive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。
支持的操作系统:与操作系统无关。
相关链接:http://hive.apache.org
10. Hivemall
Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。
支持的操作系统:与操作系统无关。
相关链接:https://github.com/myui/hivemall
11. Mahout
12. MapReduce
13. Oozie
14. Pig
15. Sqoop
16. Spark
17. Tez
18. Zookeeper
二、大数据分析平台和工具
19. Disco
20. HPCC
21. Lumify
22. Pandas
23. Storm
三、数据库/数据仓库
24. Blazegraph
25. Cassandra
26. CouchDB
27. FlockDB
28. Hibari
29. Hypertable
30. Impala
31. InfoBright社区版
32. MongoDB
33. Neo4j
34. OrientDB
35. Pivotal Greenplum Database
36. Riak
37. Redis
四、商业智能
38. Talend Open Studio
39. Jaspersoft
40. Pentaho
41. SpagoBI
42. KNIME
43. BIRT
五、数据挖掘
44.DataMelt
45. KEEL
46. Orange
47. RapidMiner
48. Rattle
49. SPMF
50. Weka
六、查询引擎
51. Drill
七、编程语言
52. R
53. ECL
八、大数据搜索
54. Lucene
九、内存中技术
链接
由于由于链接太多,我做了一个word文档,由于简书不能上传文件,需要答案可以加小编的qq交流群531629188,在里面直接获取文档,
不管你是小白还是大牛,
小编我都挺欢迎,今天的已经资讯上传到群文件,不定期分享干货,
包括我自己整理的一份最新的适合2018年学习的大数据教程,欢迎初学和进阶中的小伙伴。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Druid:实时处理时序数据的OLAP数据库
大数据分析和Druid 大数据一直是近年的热点话题,随着数据量的急速增长,数据处理的规模也从GB 级别增长到TB 级别,很多图像应用领域已经开始处理PB 级别的数据分析。大数据的核心目标是提升业务的竞争力,找到一些可以采取行动的洞察(Actionable Insight),数据分析就是其中的核心技术,包括数据收集、处理、建模和分析,最后找到改进业务的方案。 最近一两年,随着大数据分析需求的爆炸性增长,很多公司都经历过将以关系型商用数据库为基础的数据平台,转移到一些开源生态的大数据平台,例如Hadoop 或Spark 平台,以可控的软硬件成本处理更大的数据量。Hadoop 设计之初就是为了批量处理大数据,但数据处理实时性经常是它的弱点。例如,很多时候一个MapReduce 脚本的执行,很难估计需要多长时间才能完成,无法满足很多数据分析师所期望的秒级返回查询结果的分析需求。 为了解决数据实时性的问题,大部分公司都有一个经历,将数据分析变成更加实时的可交互方案。其中,涉及新软件的引入、数据流的改进等。数据分析的几种常见方法如下图。 Druid:实时处理时序数据的OLAP数据库 整个数据分析的...
- 下一篇
旧版spark(1.6版本) 将rdd动态转为dataframe
版权声明:本文由董可伦首发于https://dongkelun.com,非商业转载请注明作者及原创出处。商业转载请联系作者本人。 https://blog.csdn.net/dkl12/article/details/80304950 我的原创地址:https://dongkelun.com/2018/05/11/rdd2df/ 前言 旧版本spark不能直接读取csv转为df,没有spark.read.option(“header”, “true”).csv这么简单的方法直接将第一行作为df的列名,只能现将数据读取为rdd,然后通过map和todf方法转为df,如果csv的列数很多的话用如Array((1,2..))即Arrar(元组)创建的话很麻烦,本文解决如何用旧版spark读取多列txt文件转为df 1、新版 为了直观明白本文的目的,先看一下新版spark如何实现 1.1 数据 data.csv,如图: 1.2 代码 新版代码较简单,直接通过spark.read.option(“header”, “true”).csv(data_path)即可实现! package com.d...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果