首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/196497

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

手把手教你 Spark 性能调优

0、背景 集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。 看了下任务的历史运行情况,平均时间 3h 左右,而且极其不稳定,偶尔还会报错: 1、优化思路 任务的运行时间跟什么有关? (1)数据源大小差异 在有限的计算下,job的运行时长和数据量大小正相关,在本例中,数据量大小基本稳定,可以排除是日志量级波动导致的问题: (2)代码本身逻辑缺陷 比如代码里重复创建、初始化变量、环境、RDD资源等,随意持久化数据等,大量使用 shuffle 算子等,比如reduceByKey、join等算子。 在这份100行的代码里,一共有 3 次 shuffle 操作,任务被 spark driver 切分成了 4 个 stage 串行执行,代码位置如下: 咱们需要做的就是从算法和业务角度尽可能减少 shuffle 和 stage,提升并行计算性能,这块是个大的话题,本次不展开详述。 (3)参数设置不合理 这块技巧相对通用,咱们来看看之前的核心参数设置: num-executors=10||20,executor-cores=1||2,execu...

六个步骤:助你最大化大数据的商业价值

上个月公布的一项调查结果显示,由Apache基金会所开发的分布式系统基础架构Hadoop可能即将面临着来自资金链方面的压力与挑战。具体而言,调查中的绝大多数受访者都表示目前没有对Hadoop的投资计划,主要原因是认为Hadoop“……可能在其商业价值转化与功能实现上面临相当大的挑战”。 作为研究大数据的主要工具,Hadoop暴露出的资金链风险可能昭示着整个大数据领域的资金问题。寻找到能够实现精准分析能力的资源在业界一直是一项巨大的挑战,与此同时它也是新一代商业友好型大数据工具研发的目标,而获取商业价值,则是一个更基本的问题。 对于许多人们津津乐道的大数据企业或组织来说,通过大数据获取商业价值似乎总是如此容易:有了大数据,我们就能更深入地了解客户的行为,并运用这些知识来增加客户的满意度,从而提高企业的盈利能力。但说的容易做起来难,真正去让一个新兴企业来实现大数据价值时,一切往往变得捉襟见肘,但不管怎么说,回顾总结一些当下实用的大数据商业实践方法总归没错。实际上,最大化大数据的商业价值可以归结为将下述的六件事做好: 1.以商业思维为出发点:对于数据科学家们来说,运用Hadoop或其他先进的...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册