字符串匹配——KMP算法-低调大师

字符串匹配——KMP算法

2020-10-12 674

对于正常的字符串模式匹配，主串长度为m，子串为n，时间复杂度会到达O（m*n），而如果用KMP算法，复杂度将会减少线型时间O（m+n），这已经是非常高效的匹配算法。

设主串为ptr="ababaaababaa";要比较的子串为a=“aab”；

KMP算法用到了next数组，然后利用next数组的值来提高匹配速度，我首先讲一下next数组怎么求，之后再讲匹配方式。

next数组详解

首先是理解KMP算法的第一个难关是next数组每个值的确定。

定义一串字符串

ptr = "ababaaababaa";

next[i]（i从1开始算）代表着，除去第i个数，在一个字符串里面从第一个数到第（i-1）字符串前缀与后缀最长重复的个数。

什么是前缀？

在“aba”中，前缀就是“ab”，除去最后一个字符的剩余字符串。

同理可以理解后缀。除去第一个字符的后面全部的字符串。

在“aba”中，前缀是“ab”，后缀是“ba”，那么两者最长的子串就是“a”；

在“ababa”中，前缀是“abab”，后缀是“baba”，二者最长重复子串是“aba”；

在“abcabcdabc”中，前缀是“abcabcdab”，后缀是“bcabcdabc”，二者最长重复的子串是“abc”；

这里有一点要注意，前缀必须要从头开始算，后缀要从最后一个数开始算，中间截一段相同字符串是不行的。

再回到next[i]的定义，对于字符串ptr = "ababaaababaa";

next[1] = -1,代表着除了第一个元素，之前前缀后缀最长的重复子串，这里是空 ,即""，没有，我们记为-1，代表空。（0代表1位相同，1代表两位相同，依次累加）。

next[2] = -1，即“a”，没有前缀与后缀，故最长重复的子串是空，值为-1；

next[3] = -1，即“ab”，前缀是“a”，后缀是“b”，最长重复的子串“”；

next[4] = 1，即"aba"，前缀是“ab”，后缀是“ba”，最长重复的子串“a”；next数组里面就是最长重复子串字符串的个数

next[5] = 2，即"abab"，前缀是“aba”，后缀是“bab”，最长重复的子串“ab”；

next[6] = 3，即"ababa"，前缀是“abab”，后缀是“baba”，最长重复的子串“aba”；

next[7] = 1，即"ababaa"，前缀是“ababa”，后缀是“babaa”，最长重复的子串“a”；

next[8] = 1，即"ababaaa"，前缀是“ababaa”，后缀是“babaaa”，最长重复的子串“a”；

next[9] = 2，即"ababaaab"，前缀是“ababaaa”，后缀是“babaaab”，最长重复的子串“ab”；

next[10] = 3，即"ababaaaba"，前缀是“ababaaab”，后缀是“babaaaba”，最长重复的子串“aba”；

next[11] = 4，即"ababaaabab"，前缀是“ababaaaba”，后缀是“babaaabab”，最长重复的子串“abab”；

next[12] = 5，即"ababaaababa"，前缀是“ababaaabab”，后缀是“babaaaababa”，最长重复的子串“ababa”；

Next[j]已知求next[j+1]两步：

1 若串中字符tj =ti ，则next[i+1]=j+1 ,j为当前最长相等前后缀长度（不是全局）

2若tj ！= ti 将 ti-j+1........ti作为主串，t1......tj作为子串，类比于失配让j=next[j] 继续比较，若满足1则求得next[j+1]。如abcdcd 串中每次前缀都是从a开始的，所以只要每次不断失配后j能跳到a，则表明回跳是对的，后缀一样。

求next数组代码

void Getnex(string m)//对kmp数组的构造{    nex[0]=-1;    int k=-1,j=0;    while(j<m.size())    {        if(k==-1||m[k]==m[j])        {            k++;j++;            nex[j]=k;        }else        k=nex[k];    }}

匹配方法

next数组求值是比较麻烦的，剩下的匹配方式就很简单了。

next数组用于子串身上，根据上面的原理，我们能够推出子串a=“aab”的next数组的值分别为0,1,2.

首先开始计算主串与子串的字符，设置主串用i来表示，子串用j来表示，如果ptr[i]与a[i]相等，那么i与j就都加1：

prt[1]与a[1]相等，i++，j++：

用代码实现就是

if( j==0 ||  ptr[i]==a[j]){    ++i;    ++j;}

ptr[2]与a[2]不相等

此时ptr[2]!=a[2]，那么令j = next[j]，此时j=2，那么next[j] = next[2] = 1.那么此时j就等于1.这一段判断用代码解释的话就是：

if( ptr[i]!=a[j]){      j = next[j];}

加上上面的代码进行组合：

在对两个数组进行比对时，各自的i，j取值代码：

while( i<ptr.length && j< a.length){     if( j==0 || ptr[i]==a[i] )    {          ++i;          ++j;          next[i] = j;    }    else    {          j = next[j];    }}

此时将a[j]置于j此时所处的位置，即a[1]放到j=2处，因为在j=2时出现不匹配的情况。

此时再次计算是否匹配，可以看出来a[1]!=ptr[2],那么j = next[j]，即此时j = next[1] = 0;

根据上面的代码，当j=0时，执行++i；++j；

此时就变为：

此时ptr[3] = a[1],继续向下走，下一个又不相等了，然后“aab”向后挪一位，这里不再赘述了，主要的思想已经讲明白了。到最后一直到i = 8，j=3时匹配成功，KMP算法结束。整个过程就结束了。

代码

#include<bits/stdc++.h>bool SUBMIT = false;using namespace std;const int inf = 1000;int nex[inf];string s,h;void Getnex(string m)//对kmp数组的构造{    nex[0]=-1;    int k=-1,j=0;    while(j<m.size())    {        if(k==-1||m[k]==m[j])        {            k++;j++;            nex[j]=k;        }else        k=nex[k];    }}int kmp()//用kmp进行匹配{    int k=0,j=0;    while(j<h.size())    {        if(k==-1||s[k]==h[j])        {            k++;j++;        }else{        k=nex[k];        cout<<k<<"  "<<j<<endl;        }        if(k == s.size())            return j-k;    }    return -1;}int main(){    cin>>h>>s;    cout<<h<<endl<<s<<endl;    Getnex(s);        for(int i=0;i<s.size();i++)        cout<<nex[i];    cout<<endl;    int ans=kmp();    cout<<ans<<endl;    return 0;}

本文分享自微信公众号 - WHICH工作室（which_cn）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4678692/blog/4671683

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

头条终面：写个消息中间件

每个时代，都不会亏待会学习的人。大家好，我是 yes。这种设计类问题想必大家都不陌生，面试时或多或少都能碰到。比如如何写一个线程池？如何写一个 HashMap ？如何写一个 RPC 框架等等，当然这里的写不是真的叫你用代码写出来，只是说说设计理念，整体架构。这个面试题来自于一个读者的字节面试经历，我会从面试技巧和消息中间件的设计两个方面阐述。我觉得重点在于面试技巧，因为它通用。两种极端的情况大多数同学遇到这种问题会出现两种极端的情况：第一种：一脸懵逼，两眼无神，不知从何说起，万般思绪，都化作一声叹息。第二种：夸夸其谈，像是口中架起了一把加特林，哒哒哒哒哒哒哒哒，还冒着蓝火。第一种不用说了，好一点的面试官可能会引导你，会问一些提示性的问题，一步一步地带你渐入佳境，当然你要是胸中无点滴，那还是没救的，场面就异常地尴尬。第二种会把面试官整蒙了，或许你真的懂很多，很多细节也都清晰，但是你不能一股脑儿的都抛出来，这会显得你抓不住重点。面试官也是人这点其实很关键，很多把面试官当成一个莫得感情的提问机器人，觉得他无所不能可以完全 get 到你的点，殊不知你引以为傲的细节回答...

2020-10-13

605

转录组RNA-Seq使用docker+bioconda搭建分析环境前言近期学习转录组分析，从ncbi下载数据，转成fastq，STAR/hisat2 map到基因组上，使用featureCount拿到表达矩阵文件挺顺利的，就是到了下游分析，开始使用R开始遇到了各种问题。原因是之前一直使用的一个docker 环境是基于ubuntu 16.04的，上面的R版本是3.2.3，在进行下游分析的时候各种R包安装不上，原因也是R版本太旧。经历了各种问题之后终于忍无可忍，决心重新构建一个RNA-Seq的docker分析环境，本文作为记录以备后查。基于docker构建环境笔者使用docker的方式属于网上不推荐的方式，类似于虚拟机镜像。原因就是懒得去编写dockerfile，感觉太麻烦。极速安装docker极速安装docker-compose #从以下网址下载docker-compose，将docker-compose文件放在path变量目录下如：/usr/local/bin https://github.com/docker/compose/releases 选择docker镜像并构建基...

2020-10-13

629

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。