Java中对List去重, Stream去重-低调大师

Java中对List去重, Stream去重

2018-04-11 597

问题

当下互联网技术成熟，越来越多的趋向去中心化、分布式、流计算，使得很多以前在数据库侧做的事情放到了Java端。今天有人问道，如果数据库字段没有索引，那么应该如何根据该字段去重？大家都一致认为用Java来做，但怎么做呢？

解答

忽然想起以前写过list去重的文章，找出来一看。做法就是将list中对象的hashcode和equals方法重写，然后丢到HashSet里，然后取出来。这是最初刚学Java的时候像被字典一样背写出来的答案。就比如面试，面过号称做了3年Java的人，问Set和HashMap的区别可以背出来，问如何实现就不知道了。也就是说，初学者只背特性。但真正在项目中使用的时候你需要确保一下是不是真的这样。因为背书没用，只能相信结果。你需要知道HashSet如何帮我做到去重了。换个思路，不用HashSet可以去重吗？最简单，最直接的办法不就是每次都拿着和历史数据比较，都不相同则插入队尾。而HashSet只是加速了这个过程而已。

首先，给出我们要排序的对象User

@Data
@Builder
@AllArgsConstructor
public class User {

  private Integer id;
  private String name;
}


List<User> users = Lists.newArrayList(
        new User(1, "a"),
        new User(1, "b"),
        new User(2, "b"),
        new User(1, "a"));

目标是取出id不重复的user，为了防止扯皮，给个规则，只要任意取出id唯一的数据即可，不用拘泥id相同时算哪个。

用最直观的办法

这个办法就是用一个空list存放遍历后的数据。

@Test
public void dis1() {
    List<User> result = new LinkedList<>();
    for (User user : users) {
      boolean b = result.stream().anyMatch(u -> u.getId().equals(user.getId()));
      if (!b) {
        result.add(user);
      }
    }

    System.out.println(result);
}

用HashSet

背过特性的都知道HashSet可以去重，那么是如何去重的呢？再深入一点的背过根据hashcode和equals方法。那么如何根据这两个做到的呢？没有看过源码的人是无法继续的，面试也就到此结束了。

事实上，HashSet是由HashMap来实现的(没有看过源码的时候曾经一直直观的以为HashMap的key是HashSet来实现的，恰恰相反)。这里不展开叙述，只要看HashSet的构造方法和add方法就能理解了。

public HashSet() {
    map = new HashMap<>();
}

/**
* 显然，存在则返回false，不存在的返回true
*/
public boolean add(E e) {
    return map.put(e, PRESENT)==null;
}

那么，由此也可以看出HashSet的去重复就是根据HashMap实现的，而HashMap的实现又完全依赖于hashcode和equals方法。这下就彻底打通了，想用HashSet就必须看好自己的这两个方法。

在本题目中，要根据id去重，那么，我们的比较依据就是id了。修改如下：

@Override
public boolean equals(Object o) {
    if (this == o) {
      return true;
    }
    if (o == null || getClass() != o.getClass()) {
      return false;
    }
    User user = (User) o;
    return Objects.equals(id, user.id);
}

@Override
public int hashCode() {
    return Objects.hash(id);
}


//hashcode
result = 31 * result + (element == null ? 0 : element.hashCode());

其中， Objects调用Arrays的hashcode，内容如上述所示。乘以31等于x<<5-x。

最终实现如下：

@Test
public void dis2() {
    Set<User> result = new HashSet<>(users);
    System.out.println(result);
}

使用Java的Stream去重

回到最初的问题，之所以提这个问题是因为想要将数据库侧去重拿到Java端，那么数据量可能比较大，比如10w条。对于大数据，采用Stream相关函数是最简单的了。正好Stream也提供了distinct函数。那么应该怎么用呢？

users.parallelStream().distinct().forEach(System.out::println);

没看到用lambda当作参数，也就是没有提供自定义条件。幸好Javadoc标注了去重标准：

Returns a stream consisting of the distinct elements
(according to {@link Object#equals(Object)}) of this stream.

我们知道，也必须背过这样一个准则：equals返回true的时候，hashcode的返回值必须相同. 这个在背的时候略微有些逻辑混乱，但只要了解了HashMap的实现方式就不会觉得拗口了。HashMap先根据hashcode方法定位，再比较equals方法。

所以，要使用distinct来实现去重，必须重写hashcode和equals方法，除非你使用默认的。

那么，究竟为啥要这么做？点进去看一眼实现。


<P_IN> Node<T> reduce(PipelineHelper<T> helper, Spliterator<P_IN> spliterator) {
    // If the stream is SORTED then it should also be ORDERED so the following will also
    // preserve the sort order
    TerminalOp<T, LinkedHashSet<T>> reduceOp
            = ReduceOps.<T, LinkedHashSet<T>>makeRef(LinkedHashSet::new, LinkedHashSet::add,
                                                     LinkedHashSet::addAll);
    return Nodes.node(reduceOp.evaluateParallel(helper, spliterator));
}

内部是用reduce实现的啊，想到reduce，瞬间想到一种自己实现distinctBykey的方法。我只要用reduce，计算部分就是把Stream的元素拿出来和我自己内置的一个HashMap比较，有则跳过，没有则放进去。其实，思路还是最开始的那个最直白的方法。


@Test
public void dis3() {
    users.parallelStream().filter(distinctByKey(User::getId))
        .forEach(System.out::println);
}


public static <T> Predicate<T> distinctByKey(Function<? super T, ?> keyExtractor) {
    Set<Object> seen = ConcurrentHashMap.newKeySet();
    return t -> seen.add(keyExtractor.apply(t));
}

当然，如果是并行stream，则取出来的不一定是第一个，而是随机的。

上述方法是至今发现最好的，无侵入性的。但如果非要用distinct。只能像HashSet那个方法一样重写hashcode和equals。

小结

会不会用这些东西，你只能去自己练习过，不然到了真正要用的时候很难一下子就拿出来，不然就冒险用。而若真的想大胆使用，了解规则和实现原理也是必须的。比如，LinkedHashSet和HashSet的实现有何不同。

附上贼简单的LinkedHashSet源码：


public class LinkedHashSet<E>
    extends HashSet<E>
    implements Set<E>, Cloneable, java.io.Serializable {

    private static final long serialVersionUID = -2851667679971038690L;

    public LinkedHashSet(int initialCapacity, float loadFactor) {
        super(initialCapacity, loadFactor, true);
    }

    public LinkedHashSet(int initialCapacity) {
        super(initialCapacity, .75f, true);
    }

    public LinkedHashSet() {
        super(16, .75f, true);
    }

    public LinkedHashSet(Collection<? extends E> c) {
        super(Math.max(2*c.size(), 11), .75f, true);
        addAll(c);
    }

    @Override
    public Spliterator<E> spliterator() {
        return Spliterators.spliterator(this, Spliterator.DISTINCT | Spliterator.ORDERED);
    }
}

关注我的公众号

img_acfe50023e4718b33064273d65e4cd67.jpe

唯有不断学习方能改变！ -- Ryan Miao

微信关注我们

原文链接：https://yq.aliyun.com/articles/610731

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

杨老师课堂之JavaScript案例全选、全不选、及反选

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/kese7952/article/details/79906084 JavaScript案例之全选、全不选、及反选效果图：思路： 1.先做界面 1.1制作按钮 1.2制作复选框 2..JavaScript 3.1根据不同的标签名称去获取不同的元素 3.2当第一个按钮--全选--被单击会触发一个函数，此函数涉及到复选框全部选中功能，但是复选框一共有多少个是未知的，所以我们要去做一个循环，进行遍历得到有多少个复选框【定义变量、循环条件、循环环境】 3.3通过循环使得每一个复选框都会处于被选中状态，即为true、反之亦然！ 3.4反选：依旧采用循环去获取复选框的个数，进行判断：判断条件是：当某一个复选框被选中后，执行内容为：其余复选框全部处于被选中状态下，即反选！ 3.5判断：当图片到达最后一张，将图片变量重置为0，进行循环递加到原图的图片名称1上去参考代码： Html代码 <button>全选</button&...

2018-04-11

645

项目中，有时需要通过特定的字符寻找特定的类，如mybatis,可以通过适配符寻找要扫描的目录。我们自己也可以通过适配符寻找到自己想要的类，具体代码如下： /** * 通过包名获取class * * @author starmaark * @version 2018年4月12日下午5:55:18 */ public class ClassTools { private static final Logger log = LoggerFactory.getLogger(ClassTools.class); private static final String RESOURCE_PATTERN = "/**/*.class"; public static Set<Class<?>> findPathMatchingResources(String locationPattern) { // 第一个class类的集合 Set<Class<?>> classes = new LinkedHashSet<Class<?>&gt...

2018-04-11

920

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。