开源大数据周刊-第30期-低调大师

开源大数据周刊-第30期

2016-11-16 684 89

阿里云E-MapReduce实践

泰为在E-MapReduce上的考量与实践
阿里云EMR是基于 Hadoop 的生态环境来搭建，同时可以跟阿里云的对象存储服务OSS等云服务进行无缝数据交换，方便用户将数据在存储平台和计算平台之间进行输入输出，以满足不同业务类型的需要，所以对阿里云EMR充满期待。
HIVE MapJoin在E-MapReduce上的调优与处理总结
HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。

资讯

CloudSort 夺冠，阿里云性价比高出 AWS 保持的世界记录三倍
重磅新闻。2016 年 11 月 10 日

微信关注我们

原文链接：https://yq.aliyun.com/articles/64361

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

免费开通大数据服务：https://www.aliyun.com/product/odps 转载自dachuan 随着双十一数据量的暴增，之前用distinct去重可以简单处理的场景，现在消耗的时间成倍增长。如果用了multiple distinct，那就更要警惕，因为多重去重本身会带来数据量的成倍增长，很可能10分钟的任务，在双十一期间会跑上几个小时都没有结果。这里介绍一个小技巧，其实在稳定性手册里面已经有过介绍，不过总感觉没有看懂。最近正好做了一次优化，于是在这里小结一下：例如原来的代码是这样： select D1,D2, count(distinctcasewhen A isnot null then B end) asB_distinct_cntfrom xxx group by D1,D2 那么优化方案可以是这样： createt

677

千金药方——MongoDB疑难杂症的分析和优化

Driver 使用问题慎用local、admin： • local：存储节点自身配置信息，数据不会被同步，重要的数据不要存储在 local 数据库，避免数据丢失 • admin：存储⽤用户、⻆⾊等管理信息，写⼊时会加 DB 级别互斥写锁，业务数据不要存储在 admin 数据库，影响性能合理配置连接数： thread per connection 网络服务模型,每个线程需要1MB 的栈空间,⼤量连接时，线程切换开销大；限制连接数资源; mongod 配置 net.maxIncomingConnections 参数，Driver通过 Connection String URI 的 maxPoolSize 参数来配置连接池⼤大⼩小避免使用短连接：短连接增加额外的 connect、auth、close、线程创建及销毁开销, MongoDB 鉴权性能问题，优化后性能提示10+倍干掉长(慢)请求 • 客户端发起耗时请求，如遍历集合、建索引、mapreduce、aggregation 等，主动断开连接后，后端的请求仍然在执行 • currentOp + killOp 中止后端正在运行...

657

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。