首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/617599

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ODPS JOB 长尾问题调优

引言 上篇JOB logview 查看问题 提到长尾问题,本文深入探讨下 长尾调优的方法 概述 因为数据分布不均,导致各个节点的工作量不同,整个任务就需要等最慢的节点完成才能完成。这种问题就是长尾问题,是分布式计算里最常见的问题之一,也是典型的疑难杂症。 处理这类问题的思路就是把工作分给多个Worker去执行,而不是一个Worker单独抗下最重的那份工作。本文分享平时工作中遇到的一些典型的长尾问题的场景及其解决方案。 分类 Join长尾 Join时出现某个Key里的数据特别多的情况会出现Join长尾,是因为 解法: 排除两张表都是小表的情况,若两张表里有一张大一张小,可以考虑使用Mapjoin,对小表进行缓存。具体语法和说明见下段文字详细解释。如果是MapReduce作业,可以使用资源表的功能,对小表进行缓存。 但是如果两张表都比较大,就需要先尽量去重。 若还是不能解决,就需要从业务上考虑,为什么会有这样的两个大数据量的Key要做笛卡尔积,直接考虑从业务上进行优化。 MAPJOIN HINT 当一个大表和一个或多个小表做join时,可以使用mapjoin,性能比普通的join要快很多。...

22【在线日志分析】之项目第二阶段概述

主要对HDFS服务和Tomcat服务进行实时计算预警,故要做以下加强功能: 1. 改造 CDH/Apache hadoop的hdfs的nn,dn进程的日志输出格式,每一条改为json格式输出 (之前每一条为 string) 2. 改造 Tomcat的日志支持log4j,其为json格式输出 3. 改造 基于Flume-ng Exec Source开发自定义插件ExecSource_JSON,支持JSON数据处理 4. 改造 spark streaming+spark sql,支持读取json解析 5. 使用hive离线计算loginfo字段,计算高词频的词,添加到MySQL表中,同时支持添加自定义监控词 6. 改造 spark streaming+spark sql,参数配置定时读取监控词库,进行预警计算 7. 改造grafana dashboard可视化 8. 整个架构高可靠设计和优化 9. 扩展其他应用、DB的日志等等

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册