二分查找应该都会，那么二分查找的变体呢？-低调大师

二分查找应该都会，那么二分查找的变体呢？

2020-08-22 677

0. 前言

大家好，我是多选参数的程序锅，一个正在”捣鼓“操作系统、学数据结构和算法以及 Java 的硬核菜鸡。

二分查找大家估计都会，但是二分查找的变体大家会吗？我相信大佬都是会的，但是我这个菜鸡就是不会了。还记得，在学习二分查找变体的时候，我像发现了新大陆一般，很开森，很开森，很开森。

为了整个知识的相对完整，下面还是从最基本的二分查找开始讲解，之后讲解二分查找的变体，这个变体在刷 Leetcode 的有些题目的时候也会用到。最后对二分查找这种算法进行总结。另外，这个数据结构和算法系列的代码都在 github 仓库中可以找到：https://github.com/DawnGuoDev/algos 。

1. 二分查找及其变体

二分查找针对的是一个有序的数据集合（必须是有序），查找思想有点类似分治思想。每次都通过跟区间的中间元素对比，将待查找的区间缩小为之前的一半（或者说剔除了另一半数据），直到找到要查找的元素，或者区间被缩小为 0。

由于经过一次查找，会剔除一半数据而剩下另一半数据，因此经过 k 次查找之后，剩下的数据个数为，整个二分查找当剩下一个元素的时候停止，因此需要经过次查找，时间复杂度也就是。

1.1. 最基础的实现

这边先讲解不存在重复元素的有序数组中，查找值等于给定值的元素的情况（PS：全文的讲解都以数据是从小到大排列为前提）。

1.1.1. 非递归的方式

public int bsearch(int[] array, int len, int value) {
    int low = 0;
    int high = len - 1;

    while (low <= high) {
        int mid = low + ((high - low) >> 1);
        if (array[mid] == value) {
            return mid;
        } else if (array[mid] < value) {
            low = mid + 1;
        } else {
            high = mid - 1;
        }
    }

    return -1;
}

在实现非递归算法时，需要注意以下几个关键点：

循环的条件是 low <= high，而不是 low < high。因为可能 low 和 high 重合的时候正是需要查询的值，比如 1,2,3 那么假如我要查询 3 这个值的位置时，是在 low 等于 high 的时候才查询到的。
mid = (low+high)/2 这种写法不太严谨，因为 low 和 high 比较大的时候，可能就会溢出。所以，改进的方法是 mid = low +(high-low)/2。当然为了追求性能的极致，那么可以将这里的除以 2 改为移位操作。因为移位操作比除法运算来说，计算机处理前者会更快。最终为 mid = low + ((high-low)>>1)。需要注意的是，考虑到移位操作和加法的优先级，这边的括号必须要这样。
low 和 high 值的更新，这边一定要记得 +1 和 -1，否则的话可能会进入死循环。假如没有+1 或者 -1 的操作，那么 1,2,3 我要查询的是 3 这个值，第一步 low=0， high=2；第二步 low=1，high=2；第三步还是 low=1，high=2。

1.1.2. 递归的方式

public int bsearchInternally(int[] array, int low, int high, int value) {
    if (low > high) {
        return -1;
    }

    int mid = low + ((high -  low) >> 1);
    if (array[mid] == value) {
        return mid;
    } else if (array[mid] < value) {
        return bsearchInternally(array, mid + 1, high, value);
    } else {
        return bsearchInternally(array, low, mid - 1, value);
    }
}

这边的注意点与非递归的注意点是一一对应的，递归方式注意的是循环的条件，非递归方式注意的则是递归终止的条件，这边需要 low>high 而不是 low >= high，理由是一样的，自己举例看一下。其他两个注意事项是一样的。

★
回忆一下递归方式编写代码的技巧：1.是先写出递归式；2.确定终止条件；3.翻译成代码。
”

1.2. 查找第一个等于给定值的元素所在的 index

接下去讲解二分查找的变体，主要考虑几种典型的情况。首先，将不存在重复元素的有序数组进行一般化，即有序数组集合中存在重复的数据。那么我们该如何找到第一个等于给定值的数据的 index 呢？

假如按照最简单的方式来实现查找的话（即上述的实现），那么得到的结果将不一定正确。比如下面这个存在重复数据的有序数组集合。假设要查找的数据是 8 ，那么先拿 8 和第 4 个数据 6 进行比较，发现 8 比 6 大，于是在下标 5-9 之间寻找。结果发现第 7 个数据 8 正好是要查找的数据，然后将 index 7 返回，但是实际上第一个 8 的 index 应该是 5。

1  3  4  5  6  8  8  8  11  18

因此，对于这个变形问题，我们需要改造一下之前的代码。改造之后的代码如下所示：

public int bsearchFirstEqual(int[] array, int len, int value) {
    int low = 0;
    int high = len - 1;

    while (low <= high) {
        int mid = low + ((high - low) >> 1);
        if (array[mid] < value) {
            low = mid + 1;
        } else if (array[mid] > value) {
            high = mid - 1;
        } else {
            if (mid == 0 || array[mid - 1] != value) {
                return mid;
            }
            high = mid - 1;
        }
    }
    return -1;
}

这边稍微解析一下代码。a[mid]跟要查找的 value 的大小关系有三种情况：大于、小于、等于。对于 a[mid] >value的情况，说明等于情况位于 low-mid 之间，所以 high = mid-1。对于 a[mid]<value 的情况，说明等于情况位于 mid-high 之间，所以 low = mid+1。对于 a[mid]=value的情况，我们需要确保 mid 这个 index 是不是第一个等于 value 的 index。因此，先判断 mid 等不等于 0，假如等于的话，那么肯定是第一个了；之后判断 mid-1 位置的元素等不等于 value，如果不等于 value，那么说明 mid 是第一个等于 value 的 index。假如 mid-1 位置的元素等于 value，那么说明第一个等于 value 在 mid 之前，所以 high=mid-1。

1.3. 查找最后一个等于给定值的元素所在的 index

前面是查找第一个值等于给定值的元素，现在将问题稍微改一下，查找最后一个值等于定值的元素的 index。相应的实现代码其实和前面的类似。

public int bsearchLastEqual(int[] array, int len, int value) {
    int low = 0;
    int high = len - 1;

    while (low <= high) {
        int mid = low + ((high - low) >> 1);

        if (array[mid] < value) {
            low = mid + 1;
        } else if (array[mid] > value) {
            high = mid - 1;
        } else {
            if (mid == len -1 || array[mid + 1] != value) {
                return mid;
            }
            low = mid + 1;
        }
    }

    return -1;
}

这里我们就不分析了，分析思路跟上面的那种情况类似。

1.4. 查找第一个大于等于给定值的元素所在的 index

看完查找值相等的情况之后，接下去我们查找值不相等的情况。在有序数组中（可含重复元素），查找第一个大于等于给定值的元素的 index。比如针对序列：3、4、6、7、10，查找第一个大于等于 5 的元素，那就是 6 ，index 是 2。

public int bsearchFirstMore(int[] array, int len, int value) {
    int low = 0;
    int high = len - 1;

    while (low <= high) {
        int mid = low + ((high - low) >> 1);

        if (array[mid] < value) {
            low = mid + 1;
        } else {
            if (mid == 0 || array[mid - 1] < value) {
                return mid;
            }
            high = mid - 1;
        }
    }

    return -1;
}

如果 mid 位置所在的元素小于 value，那么第一个大于等于 value 的值的 index 是在 [mid+1, high] 之间，所以 low=mid+1。如果 mid 位置所在的元素已经大于 value，那么需要判断 mid 是不是第一个大于等于 value 的 index。假如 mid == 0 ，那么肯定是第一个了；或者 mid 前面的那个元素小于 value，那么 mid 也是第一个大于等于 value 的 index。如果两个条件都不满足，那么第一个大于等于 value 的 index，是在 [low, mid-1] 之间，因此将 high 进行更新。

1.5. 查找最后一个小于等于给定值的元素所在的 index

现在将问题变成查找最后一个小于等于给定值的元素的 index。比如针对序列：3、5、6、8、9、10，最后一个小于等于给定值 7 的元素是 6， index 是 2 。代码的实现思路与上述情况相似。

public int bsearchLastLess(int[] array, int len, int value) {
    int low = 0;
    int high = len - 1;

    while (low <= high) {
        int mid = low + ((high - low) >> 1);

        if (array[mid] > value) {
            high = mid - 1;
        } else {
            if (mid == len - 1 || array[mid + 1] > value) {
                return mid;
            }
            low = mid + 1;
        }
    }

    return -1;
}

这里我们就不分析了，分析思路跟上面的那种情况类似。

2. 总结

2.1. 二分查找的局限性

虽然二分查找的时间复杂度是 O(logn)，查找效率极高，但是二分查找却不是完美的，这种查找方法存在一些局限性。

二分查找依赖的是顺序表结构，简单点说就是数组。

二分查找能否依赖其他数据结构呢？比如链表。答案是不可以的，主要原因是二分查找算法是按照下标随机访问元素的，比如我们访问 mid 这个位置的数据就是通过下标随机访问的，这个时间复杂度是 O(1)。假如使用链表方式的话，需要遍历到 mid 这个位置，那么时间复杂度为 O(n)。所以，如果数据使用链表存储，二分查找的时间复杂度会变得高。
二分查找针对的是有序数据，在动态变化的数据集合中不适用

二分查找的时候要求查找的数据序列必须是有序的。如果数据不是有序的，那么需要先排序才能查找。在使用时间复杂度为 O(nlogn)的排序算法的情况下。如果一组静态的数据，没有频繁地插入、删除等操作，二分查找还是可以接受的。因为我们可以进行一次排序，多次二分查找。这样排序的成本就会被均摊。但是，如果我们的数据集合有频繁的插入和删除操作的话，要想二分查找。那么每次插入、删除之后都需要进行排序，从而反正数据序列的有序。这种情况下，维护有序的时间成本时很高的。

综上，二分查找只能用于插入、删除操作不频繁，一次排序多次查找的情况。针对动态变化的数据集合，二分查找将不再适合。
数据量太小不适合二分查找

要处理的数据量很小的话，完全没有必要用二分查找，顺序遍历就可以了。比如要在 10 个有序的数组中查找一个元素，不管使用顺序遍历还是二分查找，查找速度都查不多。但是这种情况下有个例外，就是如果比较操作非常耗时的话，那么也请用二分查找，因为虽然两者次数差不多，但是这种情况下我们是需要尽可能减少比较的次数。显然，二分查找的次数还会更少一点。
数据量太大也不适合二分查找

二分查找的底层需要依赖数组这种数据结构，而数组这种数据结构要求内存空间的连续。假如数据量太大，比如有 1GB 大小的数据，如果使用数组来存储，那么就需要 1GB 的连续内存空间。所以当要查找的数据集合特别大的时候二分查找也会不太适合。

2.2. 二分查找的优势

二分查找在内存使用上更节省

虽然大部分情况下，用二分查找的方式可以解决的问题，散列表、二叉树都可以解决。但是，不管是散列表还是二叉树都需要额外的内存空间。而二分查找依赖的是数组，除了数据本身之外，不需要存储额外的其他信息。所以当二分查找需要 100MB 内存的情况下，散列表或二叉树需要的内存空间会更大（不止 100MB）。显然，在这三种方式中二分查找是最省内存空间的。
二分查找更适合用在“近似”查找问题。

在这类问题上，二分查找的优势更加明显，就比如这几种变体。而查找“等于给定值”的问题，更适合散列表或二叉树。这种变体的二分查找算法比较难写，尤其是细节上如果处理不好容易产生BUG，这些出错的细节有：终止条件、区间上下界更新方法、返回值选择。

后台回复【AI资料】和【学习资料】即可获取优质的学习资料

纯分享 | 全网推荐的 AI 视频教程和书籍分享

另外附上整个《拿下数据结构与算法》系列准备完成的思维导图（不含详细内容）

不甘于「本该如此」，「多选参数」值得关注

本文分享自微信公众号 - 多选参数（zhouxintalk）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4579512/blog/4525151

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Mozilla 语音文本引擎项目 DeepSpeech / STT 不确定的未来

Mozilla 宣布裁员约 250 名员工后对公司进行了大规模的组织架构重组，并表示未来将集中精力发掘商业化模式。与此同时，部分公益性质的研究项目在此次裁员中大受影响，语音文本引擎项目DeepSpeech(Mozilla Voice STT)就是其中之一，由于公司探索商业化的决策，DeepSpeech 的前景变得不确定。 Mozilla 的 Reuben Morais 近日发布声明表示，裁员之后他们也不确定DeepSpeech 未来将何去何从，目前正在确认项目是否会在公司重组后拥有新的“安身之地”，以及成功过渡需要进行哪些变更。 DeepSpeech 是目前最好的语音文本引擎之一，它提供了易于使用的开源语音转文本解决方案，可轻松集成到许多平台、编程语言和应用程序中，现在已接近发布 1.0 稳定版。Reuben 表示，大多数技术更改已完成，因此他们认为没有理由不进行发布。1.0 很快就会推出，Reuben 鼓励所有人进行更新。不过 1.0 发布之后，DeepSpeech 面临的仍是不确定的未来。即便如此，Reuben仍在鼓励开发者提交Bug 和 PR，建议大家在Discourse 论坛...

2020-08-25

951

对数损失 Log Loss 又称交叉熵损失 cross-entropy loss，两者名称不同，其实是等价的，常用于评价逻辑回归和神经网络。什么是逻辑回归 Logistics Regression？与线性回归估计出Y的是一个连续型的计量数值不同，逻辑回归其实是一个分类方法。在二元逻辑回归中应变量Y是0和1，Y属于分类数据，估计结果是一个概率，自变量是可以包含多个对因变量有影响的因素，可以是连续也可是分类数据；通过逻辑回归，得出每个自变量的权重以及一个事件发生的概率。二类分类问题的Log Loss: 注：pr 是按照回归模型得出的概率举例说明：假设有四个测试样本，y_true 列表是样本的真实值，y_pred 列表中有四个元素，每个样本元素有两个数值，分别表示不同类标签(0和1)的预测概率，其和为1。y_pred中的第一样本的两个元素[.9, .1] 表示样本1有90%的概率属于标签y=0, 10%的概率属于标签y=1;依次计算每个样本的逻辑损失，以e为底数算对数值，样本求平均得出Log Loss。多类分类的交叉熵（cross-entropy loss）损失：交叉熵公式中...

2020-08-22

739

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。