首页 文章 精选 留言 我的

精选列表

搜索[hadoop],共8432篇文章
优秀的个人博客,低调大师

hadoop 排重优化

如果觉得有帮助的话就顶下吧 在统计的时候经常会用到排重,比如想统计每日登陆用户,但是一个用户一次多次登陆情况,或者一个产品被多少个用户下载。。等等情况 截图一是我之前写的代码: 下面是我优化后代码 public static class ReduceTask extends Reducer<Text, Text, Text, IntWritable> { private IntWritable rval = new IntWritable(); private Multiset<Text> multiset=HashMultiset.create(); @Override protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException { multiset.clear(); for (Text item:values){ multiset.add(item); } rval.set(multiset.elementSet().size()); context.write(key, rval); } } Multiset,会将相同的key,存到value种,只要将key遍历出来取值的个数就是排重后的数据。 前者是循环嵌套查找但是占用内存少 ,1179个组,平均每个组被分到6万条,最坏情况下(6w/2)^2*1179级别的循环,后者利用hashmap高效的存取值方式,是O(n)的级别,但是占用内存比较大 性能对比,下图是输入的数据,经过map的筛选,, 下图是代码1执行的用时 执行了一小时还没结束,下图是代码二的时间 只要俩分钟不到,执行速度有大幅提升 文章转载自 开源中国社区[https://www.oschina.net]

优秀的个人博客,低调大师

Hadoop数据迁到MaxCompute

通过最佳实践帮助您实现上述案例效果 Step1:数据准备 接下来,我们需要准备好一张表及数据集; Hive表名:hive_dplus_good_sale; 是否分区表:分区表,分区名为pt; hdfs文件数据列分隔符:英文逗号; 表数据量:100条。 源hive表建表语句 CREATE TABLE IF NOT EXISTS hive_dplus_good_sale( create_time timestamp, good_cate STRING, brand STRING, buyer_id STRING, trans_num BIGINT, trans_amount DOUBLE, click_cnt BIGINT, addcart_cnt BIGINT, collect_cnt BIGI

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册