字符串匹配——KMP算法
对于正常的字符串模式匹配,主串长度为m,子串为n,时间复杂度会到达O(m*n),而如果用KMP算法,复杂度将会减少线型时间O(m+n),这已经是非常高效的匹配算法。
设主串为ptr="ababaaababaa";要比较的子串为a=“aab”;
KMP算法用到了next数组,然后利用next数组的值来提高匹配速度,我首先讲一下next数组怎么求,之后再讲匹配方式。
next数组详解
首先是理解KMP算法的第一个难关是next数组每个值的确定。
定义一串字符串
ptr = "ababaaababaa";
next[i](i从1开始算)代表着,除去第i个数,在一个字符串里面从第一个数到第(i-1)字符串前缀与后缀最长重复的个数。
什么是前缀?
在“aba”中,前缀就是“ab”,除去最后一个字符的剩余字符串。
同理可以理解后缀。除去第一个字符的后面全部的字符串。
在“aba”中,前缀是“ab”,后缀是“ba”,那么两者最长的子串就是“a”;
在“ababa”中,前缀是“abab”,后缀是“baba”,二者最长重复子串是“aba”;
在“abcabcdabc”中,前缀是“abcabcdab”,后缀是“bcabcdabc”,二者最长重复的子串是“abc”;
这里有一点要注意,前缀必须要从头开始算,后缀要从最后一个数开始算,中间截一段相同字符串是不行的。
再回到next[i]的定义,对于字符串ptr = "ababaaababaa";
next[1] = -1,代表着除了第一个元素,之前前缀后缀最长的重复子串,这里是空 ,即"",没有,我们记为-1,代表空。(0代表1位相同,1代表两位相同,依次累加)。
next[2] = -1,即“a”,没有前缀与后缀,故最长重复的子串是空,值为-1;
next[3] = -1,即“ab”,前缀是“a”,后缀是“b”,最长重复的子串“”;
next[4] = 1,即"aba",前缀是“ab”,后缀是“ba”,最长重复的子串“a”;next数组里面就是最长重复子串字符串的个数
next[5] = 2,即"abab",前缀是“aba”,后缀是“bab”,最长重复的子串“ab”;
next[6] = 3,即"ababa",前缀是“abab”,后缀是“baba”,最长重复的子串“aba”;
next[7] = 1,即"ababaa",前缀是“ababa”,后缀是“babaa”,最长重复的子串“a”;
next[8] = 1,即"ababaaa",前缀是“ababaa”,后缀是“babaaa”,最长重复的子串“a”;
next[9] = 2,即"ababaaab",前缀是“ababaaa”,后缀是“babaaab”,最长重复的子串“ab”;
next[10] = 3,即"ababaaaba",前缀是“ababaaab”,后缀是“babaaaba”,最长重复的子串“aba”;
next[11] = 4,即"ababaaabab",前缀是“ababaaaba”,后缀是“babaaabab”,最长重复的子串“abab”;
next[12] = 5,即"ababaaababa",前缀是“ababaaabab”,后缀是“babaaaababa”,最长重复的子串“ababa”;
Next[j]已知 求next[j+1]两步:
1 若串中字符tj =ti ,则next[i+1]=j+1 ,j为当前最长相等前后缀长度(不是全局)
2若tj != ti 将 ti-j+1........ti作为主串,t1......tj作为子串,类比于失配让j=next[j] 继续比较,若满足1则求得next[j+1]。如abcdcd 串中每次前缀都是从a开始的,所以只要每次不断失配后j能跳到a,则表明回跳是对的,后缀一样。
求next数组代码
void Getnex(string m)//对kmp数组的构造
{
nex[0]=-1;
int k=-1,j=0;
while(j<m.size())
{
if(k==-1||m[k]==m[j])
{
k++;j++;
nex[j]=k;
}else
k=nex[k];
}
}
匹配方法
next数组求值 是比较麻烦的,剩下的匹配方式就很简单了。
next数组用于子串身上,根据上面的原理,我们能够推出子串a=“aab”的next数组的值分别为0,1,2.
首先开始计算主串与子串的字符,设置主串用i来表示,子串用j来表示,如果ptr[i]与a[i]相等,那么i与j就都加1:
prt[1]与a[1]相等,i++,j++:
用代码实现就是
if( j==0 || ptr[i]==a[j])
{
++i;
++j;
}
ptr[2]与a[2]不相等
此时ptr[2]!=a[2],那么令j = next[j],此时j=2,那么next[j] = next[2] = 1.那么此时j就等于1.这一段判断用代码解释的话就是:
if( ptr[i]!=a[j])
{
j = next[j];
}
加上上面的代码进行组合:
在对两个数组进行比对时,各自的i,j取值代码:
while( i<ptr.length && j< a.length)
{
if( j==0 || ptr[i]==a[i] )
{
++i;
++j;
next[i] = j;
}
else
{
j = next[j];
}
}
此时将a[j]置于j此时所处的位置,即a[1]放到j=2处,因为在j=2时出现不匹配的情况。
此时再次计算是否匹配,可以看出来a[1]!=ptr[2],那么j = next[j],即此时j = next[1] = 0;
根据上面的代码,当j=0时,执行++i;++j;
此时就变为:
此时ptr[3] = a[1],继续向下走,下一个又不相等了,然后“aab”向后挪一位,这里不再赘述了,主要的思想已经讲明白了。到最后一直到i = 8,j=3时匹配成功,KMP算法结束。整个过程就结束了。
代码
bool SUBMIT = false;
using namespace std;
const int inf = 1000;
int nex[inf];
string s,h;
void Getnex(string m)//对kmp数组的构造
{
nex[0]=-1;
int k=-1,j=0;
while(j<m.size())
{
if(k==-1||m[k]==m[j])
{
k++;j++;
nex[j]=k;
}else
k=nex[k];
}
}
int kmp()//用kmp进行匹配
{
int k=0,j=0;
while(j<h.size())
{
if(k==-1||s[k]==h[j])
{
k++;j++;
}else{
k=nex[k];
cout<<k<<" "<<j<<endl;
}
if(k == s.size())
return j-k;
}
return -1;
}
int main()
{
cin>>h>>s;
cout<<h<<endl<<s<<endl;
Getnex(s);
for(int i=0;i<s.size();i++)
cout<<nex[i];
cout<<endl;
int ans=kmp();
cout<<ans<<endl;
return 0;
}
本文分享自微信公众号 - WHICH工作室(which_cn)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
头条终面:写个消息中间件
每个时代,都不会亏待会学习的人。 大家好,我是 yes。 这种设计类问题想必大家都不陌生,面试时或多或少都能碰到。 比如如何写一个线程池?如何写一个 HashMap ?如何写一个 RPC 框架等等,当然这里的写不是真的叫你用代码写出来,只是说说设计理念,整体架构。 这个面试题来自于一个读者的字节面试经历,我会从面试技巧和消息中间件的设计两个方面阐述。 我觉得重点在于面试技巧,因为它通用。 两种极端的情况 大多数同学遇到这种问题会出现两种极端的情况: 第一种:一脸懵逼,两眼无神,不知从何说起,万般思绪,都化作一声叹息。 第二种:夸夸其谈,像是口中架起了一把加特林,哒哒哒哒哒哒哒哒,还冒着蓝火。 第一种不用说了,好一点的面试官可能会引导你,会问一些提示性的问题,一步一步地带你渐入佳境,当然你要是胸中无点滴,那还是没救的,场面就异常地尴尬。 第二种会把面试官整蒙了,或许你真的懂很多,很多细节也都清晰,但是你不能一股脑儿的都抛出来,这会显得你抓不住重点。 面试官也是人 这点其实很关键,很多把面试官当成一个莫得感情的提问机器人,觉得他无所不能可以完全 get 到你的点,殊不知你引以为傲的细节回答...
- 下一篇
转录组RNA-Seq使用docker+bioconda搭建分析环境
转录组RNA-Seq使用docker+bioconda搭建分析环境 前言 近期学习转录组分析,从ncbi下载数据,转成fastq,STAR/hisat2 map到基因组上,使用featureCount拿到表达矩阵文件挺顺利的,就是到了下游分析,开始使用R开始遇到了各种问题。 原因是之前一直使用的一个docker 环境是基于ubuntu 16.04的,上面的R版本是3.2.3,在进行下游分析的时候各种R包安装不上,原因也是R版本太旧。经历了各种问题之后终于忍无可忍,决心重新构建一个RNA-Seq的docker分析环境,本文作为记录以备后查。 基于docker构建环境 笔者使用docker的方式属于网上不推荐的方式,类似于虚拟机镜像。原因就是懒得去编写dockerfile,感觉太麻烦。 极速安装docker极速安装docker-compose #从以下网址下载docker-compose,将docker-compose文件放在path变量目录下如:/usr/local/bin https://github.com/docker/compose/releases 选择docker镜像并构建基...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS关闭SELinux安全模块
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装Nodejs环境