spark 数据倾斜的一些表现-低调大师

spark 数据倾斜的一些表现

2016-10-30 713 89

我遇到的问题其实是自己的业务代码的bug导致shuffle时发生了倾斜，groupby操作时大量的key映射到了同一台机器。

我自己的bug没有多少参考价值，因为是一个弱智bug，但是由于之前没有这方面的经验，看了日志也不懂发生了什么，在群里请教了木艮同学和Jepson同学，终于找到了问题。稍微写一下发生数据倾斜时的一些日志和监控图表吧，权当参考。

问题现象

任务日志显示某节点内存超过yarn的限制：xx G，被yarn杀掉。

打开webui(:4040/jobs)，打开executor列表，会显示只有一个worker在工作，

![worker_list_data_leaning](https://yqfile.alicdn.com/32b3ee55e135ac608e8ec2ecd0266c09e36c3de6.png)

对应的报错节点的日志：

16/10/31 11:10:18 INFO storage.MemoryStore: Block broadcast_14 stored as values in memory (estimated size 337.4 KB, free 13.2 MB)
16/10/31 11:12:44 ERROR executor.Executor: Managed memory leak detected; size = 5924550044 bytes, TID = 423
16/10/31 11:12:44 ERROR executor.Executor: Exception in task 0.0 in stage 13.0 (TID 423)
java.lang.OutOfMemoryError: Java heap space
    at org.apache.spark.util.collection.AppendOnlyMap.growTable(AppendOnlyMap.scala:218)
    at org.apache.spark.util.collection.SizeTrackingAppendOnlyMap.growTable(SizeTrackingAppendOnlyMap.scala:38)
    at org.apache.spark.util.collection.AppendOnlyMap.incrementSize(AppendOnlyMap.scala:204)
    at org.apache.spark.util.collection.AppendOnlyMap.changeValue(AppendOnlyMap.scala:151)
    at org.apache.spark.util.collection.SizeTrackingAppendOnlyMap.changeValue(SizeTrackingAppendOnlyMap.scala:32)
    at org.apache.spark.util.collection.ExternalSorter.insertAll(ExternalSorter.scala:192)
    at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:64)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
16/10/31 11:12:46 ERROR util.SparkUncaughtExceptionHandler: Uncaught exception in thread Thread[Executor task launch worker-0,5,main]
java.lang.OutOfMemoryError: Java heap space
    at org.apache.spark.util.collection.AppendOnlyMap.growTable(AppendOnlyMap.scala:218)
    at org.apache.spark.util.collection.SizeTrackingAppendOnlyMap.growTable(SizeTrackingAppendOnlyMap.scala:38)
    at org.apache.spark.util.collection.AppendOnlyMap.incrementSize(AppendOnlyMap.scala:204)
    at org.apache.spark.util.collection.AppendOnlyMap

下图是阿里云集群监控图表中的cpu曲线，黑色的曲线是其中一台worker，靠前的两次100%就是两次问题任务执行，红色的是修改了部分问题之后重新跑了一遍，还是有部分倾斜，但是成功跑完了。最后一段是正常曲线。（因为集群已经关了，没法看大图了。。）
下图是对应的内存曲线

可以看到，可能是webui的显示问题，shuffle read只显示200M+的数据量，实际内存使用已经超6G了，开始的时候没想到是这个问题。木艮同学指出日志出错是在shuffle阶段，应该是数据倾斜问题，Jepson同学说数据实际占有内存比数据大小大很多，于是我大概知道了可能出错的地方，排查了一下这个stage对应的DAG里带shuffle的transformation操作，才发现了bug。

我的问题是比较弱智的bug，加了一些数据源，新写了处理代码；然后新的任务改了，之前的任务代码忘记改了，导致新的数据没有设置key，全部group到一个地方去了。

微信关注我们

原文链接：https://yq.aliyun.com/articles/62541

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2016-10-31 00:00:00

淘宝大数据之路

免费开通大数据服务：https://www.aliyun.com/product/odps 转载yanchun 2003年至今淘宝网从零开始飞速发展，走过了13个年头，支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台，淘宝大数据平台，就是其中非常重要的一个组成部分，承担了数据采集、加工处理、数据应用的职责，淘宝大数据平台一路到今天，总共经历了三个大的阶段（如图1），不同阶段面临了不一样的挑战，随着我的理解回顾下这些年大数据所经历过的故事：图1 数据仓库平台发展三个阶段第一个阶段：RAC时代 2008年前的单节点ORACLE，这个时候还称不上数据仓库，只能承担简单的数据处理工作，也基本上没有数据仓库架构，随着业务的飞速发展，很快单节点的ORACLE因无扩展能力，计算存储能力就应付不了了； 2008年之后，为了应对日

567

2016-10-31 00:00:00

[Hive]Hive使用指南六日期相关函数

下面介绍一下常用的Hive日期处理相关函数。 1. to_date 日期时间转日期函数语法: to_date(string timestamp) 返回值: string 说明: 返回日期时间字段中的日期部分。举例： select to_date('2011-12-08 10:03:01') from dual; 2011-12-08 2. year 日期转年函数语法: year(string date) 返回值: int 说明: 返回日期中的年。举例： select year('2011-12-08 10:03:01') from dual; 2011 3. month 日期转月函数语法: month (string date) 返回值: int 说明: 返回日期中的月份。举例： select month('2011-12-08 10:03:01') from dual; 12 4. day 日期转天函数语法: day (string date) 返回值: int 说明: 返回日期中的天举例： select day('2011-12-08 10:03:01') from...

777

资源下载

更多资源

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。