《循序渐进学Spark》一第2章-低调大师

《循序渐进学Spark》一第2章

2017-05-01 670

本节书摘来自华章出版社《循序渐进学Spark》一书中的第2章，第2.1节，作者小象学院　杨　磊，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章

Spark 编程模型

与Hadoop相比，Spark最初为提升性能而诞生。Spark是Hadoop MapReduce的演化和改进，并兼容了一些数据库的基本思想，可以说，Spark一开始就站在Hadoop与数据库这两个巨人的肩膀上。同时，Spark依靠Scala强大的函数式编程Actor通信模式、闭包、容器、泛型，并借助统一资源调度框架，成为一个简洁、高效、强大的分布式大数据处理框架。

Spark在运算期间，将输入数据与中间计算结果保存在内存中，直接在内存中计算。另外，用户也可以将重复利用的数据缓存在内存中，缩短数据读写时间，以提高下次计算的效率。显而易见，Spark基于内存计

微信关注我们

原文链接：https://yq.aliyun.com/articles/87495

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

利用Arena Allocation避免HBase触发Full GC

Arena Allocation，是一种GC优化技术，它可以有效地减少因内存碎片导致的Full GC，从而提高系统的整体性能。本文介绍Arena Allocation的原理及其在Hbase中的应用-MSLAB。背景假设有1G内存，我顺序创建了1百万个对象，每个对象大小1K，Heap会被渐渐充满且每个对象以创建顺序相邻。此时，如果我释放50万个奇数对象，即 1 3 5 7后，剩余空间会多出500M，而这段内存空间就不再连续了。问题出现？如果我打算new一个2K大小的对象，JVM将无从分配它，因为找不到连续可用的内存空间来容纳这个对象，就算Heap当时还有500M的剩余空间，也无能为力。最终，JVM会选择触发Full GC重新压缩内存使之连续，然后再分配。结论：触发Full GC，并不只有在内存满或达到触发比例的时候，还有可能是因为内存碎片。产生内存碎片的主要原因是：分配的大小不一。分配的空间不连续。如何检测因内存碎片触发了Full GC？通过启动java时，添加 -XX:PrintFLSStatistics=1 参数来打印每次gc前后的Heap余量。较大的余量，可以怀疑H...

2017-05-01

678

本节书摘来异步社区《Hive编程指南》一书中的第1章，第1.1节，作者：【美】Edward Capriolo , Dean Wampler , Jason Rutherglen 译者：曹坤，更多章节内容可以访问云栖社区“异步社区”公众号查看。第1章　基础知识 Hive编程指南从早期的互联网主流大爆发开始，主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近，社交网站也遇到了同样的问题。如今，许多组织已经意识到他们所收集的数据是让他们了解他们的用户，提高业务在市场上的表现以及提高基础架构效率的一个宝贵的资源。 Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。Hadoop实现了一个特别的计算模型，也就是MapReduce，其可以将计算任务分割成多个处理单元然后分散到一群家用的或服务器级别的硬件机器上，从而降低成本并提供水平可伸缩性。这个计算模型的下面是一个被称为Hadoop分布式文件系统（HDFS）的分布式文件系统。这个文件系统是“可插拔的”，而且现在已经出现了几个商用的和开源的替代方案。不过，仍然存在一个挑战，那就是用户如何从一个现...

2017-05-01

614

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。