《R与Hadoop大数据分析实战》一2.6 小结
本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第2章,第2.6节,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看 2.6 小结 在这章,我们了解了什么是HadoopMapReduce和如何开发和运行它。在下一章,将通过案例来学习如何安装RHIPE 和RHadoop,开发MapReduce和便捷功能强大的函数库。
1.Hadoop
Hadoop是稳定企业实力和其他一切工作的基础。你需要利用YARN,HDFS和Hadoop中的基础设施,存储原始数据以及运行关键的大数据服务和应用程序。
2.Spark
Spark易于使用,并且支持所有重要的大数据语言(Scala,Python,Java,R)。同时,Spark还是一个巨大的生态系统,发展迅速,便于支持microbatching/batching/SQL。这是另一个不费脑筋的技术。
3.NiFi
NiFi是NSA工具,它可以用最少的编码和一个光滑的UI,提供简单的数据摄取、存储和处理各种来源数据。这些数据的来源包括社交媒体,JMS,NoSQL,SQL,Rest/JSONFeeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,AzureEventHub,Kafka等等。如果NiFi没有你需要的来源或汇集,你可以为NiFi直接用Java代码编写自己的处理器。NiFi是另一个推荐选入工具箱中的Apache项目,是大数据工具中的瑞士军刀。
4.ApacheHive2.1
ApacheHive是运行在Hadoop之上的永久SQL解决方案。在ApacheHive2.1最新版本中,性能和功能上的增强使Hive成功作为SQL大数据解决方案留在榜单。
5.Kafka
Kafka是大数据系统间进行异步、分布式消息传递的选择,它能够进入大多数的堆栈。从Spark到NiFi,到第三方工具,再到Java和Scala,它很好地维系了系统。Kafka需要在栈中应用。
6.Phoenix-HBase
由于很多公司都在应用HBase,也就导致了这个开源项目的数据规模极大。在HDFS支持下,NoSQL能够很好地集成所有工具。所以,在HBase上额外构建的Phoenix成为了NoSQL首选。这增强了HBase的SQL、JDBC、OLTP和运营分析能力。
7.Zeppelin
在使用Hive,Spark,SQL,Shell,Scala,Python以及许多其他的数据挖掘和机器学习工具时,Zeppelin是一款便捷、集成性较高的notebook工具。在易于使用的同时,Zeppelin能够以很好的方式来探索和查询数据。而且这个工具可以支持多种环境和功能,用户只需要经常更新图表和映射数据即可。
8.SparklingWater
SparklingWater弥补了Spark中MachineLearning和其他工作间的空缺,提供所有可能用到的机器学习服务。
9.ApacheBeam
ApacheBeam是一个用Java编写的统一框架,用于数据处理和管道开发。同时,它也可以支持Spark和Flink。其他的框架很快也会上线,用户不必再去学习太多的框架。
10.StanfordCoreNLP
NaturalLanguageProcessing目前应用极广且增长迅速,StanfordCoreNLP也在不断地提高他们的框架性能。
时下有数不清的大数据项目,所以最好的办法就是合并及测试不同项目版本,来确保他们在安全和管理上都能够顺畅运行。
本文转自d1net(转载)
微信关注我们
转载内容版权归作者及来源网站所有!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。
Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。
Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。
Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。