常见的集合容器应当避免的坑

2019-07-04 561

前言

前不久帮同事一起 review 一个 job 执行缓慢的问题时发现不少朋友在撸码实现功能时还是有需要细节不够注意，于是便有了这篇文章。

ArrayList 踩坑

List<string> temp = new ArrayList() ;

//获取一批数据
List<string> all = getData();
for(String str : all) {
	temp.add(str);
}

首先大家看看这段代码有什么问题嘛？

其实在大部分情况下这都是没啥问题，无非就是循环的往 ArrayList 中写入数据而已。

但在特殊情况下，比如这里的 getData() 返回数据非常巨大时后续 temp.add(str) 就会有问题了。

比如我们在 review 代码时发现这里返回的数据有时会高达 2000W，这时 ArrayList 写入的问题就凸显出来了。

填坑指南

大家都知道 ArrayList 是由数组实现，而数据的长度有限；需要在合适的时机对数组扩容。

> 这里以插入到尾部为例 add(E e)。

ArrayList<string> temp = new ArrayList&lt;&gt;(2) ;
temp.add("1");
temp.add("2");
temp.add("3");

当我们初始化一个长度为 2 的 ArrayList ，并往里边写入三条数据时 ArrayList 就得扩容了，也就是将之前的数据复制一份到新的数组长度为 3 的数组中。

> 之所以是 3 ，是因为新的长度=原有长度 * 1.5

通过源码我们可以得知 ArrayList 的默认长度为 10.

但其实并不是在初始化的时候就创建了 DEFAULT_CAPACITY = 10 的数组。

而是在往里边 add 第一个数据的时候会扩容到 10.

既然知道了默认的长度为 10 ，那说明后续一旦写入到第九个元素的时候就会扩容为 10*1.5 =15。这一步为数组复制，也就是要重新开辟一块新的内存空间存放这 15 个数组。

一旦我们频繁且数量巨大的进行写入时就会导致许多的数组复制，这个效率是极低的。

但如果我们提前预知了可能会写入多少条数据时就可以提前避免这个问题。

比如我们往里边写入 1000W 条数据，在初始化的时候就给定数组长度与用默认 10 的长度之间性能是差距巨大的。

> 我用 JMH 基准测试验证如下：

@Warmup(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
@Measurement(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
public class CollectionsTest {

    private static final int TEN_MILLION = 10000000;

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void arrayList() {

        List<string> array = new ArrayList&lt;&gt;();

        for (int i = 0; i &lt; TEN_MILLION; i++) {
            array.add("123");
        }

    }

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void arrayListSize() {
        List<string> array = new ArrayList&lt;&gt;(TEN_MILLION);

        for (int i = 0; i &lt; TEN_MILLION; i++) {
            array.add("123");
        }

    }


    public static void main(String[] args) throws RunnerException {
        Options opt = new OptionsBuilder()
                .include(CollectionsTest.class.getSimpleName())
                .forks(1)
                .build();


        new Runner(opt).run();
    }
}

根据结果可以看出预设长度的效率会比用默认的效率高上很多（这里的 Score 指执行完函数所消耗的时间）。

所以这里强烈建议大家：在有大量数据写入 ArrayList 时，一定要初始化指定长度。

再一个是一定要慎用 add(int index, E element) 向指定位置写入数据。

通过源码我们可以看出，每一次写入都会将 index 后的数据往后移动一遍，其实本质也是要复制数组；

但区别于往常规的往数组尾部写入数据，它每次都会进行数组复制，效率极低。

LinkedList

提到 ArrayList 就不得不聊下 LinkedList 这个孪生兄弟；虽说都是 List 的容器，但本质实现却完全不同。

LinkedList 是由链表组成，每个节点又有头尾两个节点分别引用了前后两个节点；因此它也是一个双向链表。

所以理论上来说它的写入非常高效，将不会有 ArrayList 中效率极低的数组复制，每次只需要移动指针即可。

> 这里偷懒就不画图了，大家自行脑补下。

对比测试

坊间一直流传：

> LinkedList 的写入效率高于 ArrayList，所以在写大于读的时候非常适用于 LinkedList 。

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void linkedList() {
        List<string> array = new LinkedList&lt;&gt;();

        for (int i = 0; i &lt; TEN_MILLION; i++) {
            array.add("123");
        }

    }

这里测试看下结论是否符合；同样的也是对 LinkedList 写入 1000W 次数据，通过结果来看初始化数组长度的 ArrayList 效率明显是要高于 LinkedList 。

但这里的前提是要提前预设 ArrayList 的数组长度，避免数组扩容，这样 ArrayList 的写入效率是非常高的，而 LinkedList 的虽然不需要复制内存，但却需要创建对象，变换指针等操作。

而查询就不用多说了，ArrayList 可以支持下标随机访问，效率非常高。

LinkedList 由于底层不是数组，不支持通过下标访问，而是需要根据查询 index 所在的位置来判断是从头还是从尾进行遍历。

但不管是哪种都得需要移动指针来一个个遍历，特别是 index 靠近中间位置时将会非常慢。

总结

高性能应用都是从小细节一点点堆砌起来的，就如这里提到的 ArrayList 的坑一样，日常使用没啥大问题，一旦数据量起来所有的小问题都会成为大问题。

所以再总结下：

再使用 ArrayList 时如果能提前预测到数据量大小，比较大时一定要指定其长度。
尽可能避免使用 add(index,e) api，会导致复制数组，降低效率。
再额外提一点，我们常用的另一个 Map 容器 HashMap 也是推荐要初始化长度从而避免扩容。

本文所有测试代码：

https://github.com/crossoverJie/JCSprout/blob/master/src/main/java/com/crossoverjie/basic/CollectionsTest.java

你的点赞与分享是对我最大的支持

微信关注我们

原文链接：https://my.oschina.net/crossoverjie/blog/3069331

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Kubernetes安全三步谈：如何监控与控制Kubernetes中的资源消耗问题

或许很多人可能认为资源消耗并非安全问题，但实际上不合理的资源消耗会让黑客有可乘之机，来攻击K8s的组件。本文将介绍如何处理资源消耗或noisy neighbor问题，包括如何管理Pods中的资源以及管理项目和资源配额等。本文是关于Kubernetes安全系列三篇文章中的最后一篇。在第一篇文章中，我们分享了如何确保企业的Kubernetes集群免受外部攻击；第二篇文章介绍了三种保护Kubernetes免受内部威胁的方法。在本文中，我们将介绍如何处理资源消耗或noisy neighbor问题。对于那些设置了多租户Kubernetes集群的集群管理员而言，他们十分关注和担心的一个问题是，如何防止共同租户成为“noisy neighbor”，即一个垄断了CPU、内存、存储和其他资源的人。Noisy neighbor会对共享基础设施的其他用户资源的性能产生极坏的影响。如此一来，跟踪Kubernetes容器和Pod的资源使用情况，对集群管理而言非常重要，因为它不仅可以保持容器编排系统处于最佳运行状态，降低运维成本，还可以加强Kubernetes的整体安全状况。一些运维团队可能不认为资源消耗...

2019-07-03

879

李子骅--石墨文档技术总监。一个产品有需求的提出、评审、确定，以及实际的开发测试和交付这几个阶段。从2001年敏捷被提出开始到现在已经有越来越多的项目在使用敏捷。现在的敏捷已经变成一种常态，这个时候讨论敏捷实践中被大家的忽略点就变得非常有意义。今天我们会围绕两个关键的点来讨论：一个是关注非功能需求，另一个是DevOps相关的策略。关注非功能需求这是一个网站的截图，上面有两个文本块，第一个是标题，第二个是答案。看到这个图，首先大家会想它是什么东西，其次是为什么会有人问这个问题。这是现在最流行的前端开发框架 React 的新一代的核心算法，Fiber的提出有两个背景原因。第一个原因是现在越来越多的产品和网站非常复杂，尤其体现在交互和功能方面。就比如石墨文档可以让很多人同时在线编写 Word 文档，这和之前传统的类似博客和新闻的Web 应用不一样，现在我们会有更复杂的交互，所以复杂交互带来什么呢？越来越多的用户发现虽然网站功能越来越多，但是好像网站也随之变得更卡了。滚动的时候会有一些延迟，打开一个网页会越来越慢。Fiber专门是为了解决这个问题，也就是说当你的网站很复杂的时候...

2019-07-04

696

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。