博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
后缀数组--处理字符串的利器
阅读量:5796 次
发布时间:2019-06-18

本文共 5555 字,大约阅读时间需要 18 分钟。

后缀数组是处理字符串的有力工具。后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,能够实现后缀树的很多功能而时间复杂度也并不逊色,而且它比后缀树所占用的内存空间小很多。

子串:字符串S的子串r[i..j],i<=j,表示r串中从i到j这一段,也就是顺次排列r[i],r[i+1],...,r[j]形成的字符串。

后缀:后缀是指从某个位置i开始到整个串末尾结束的一个特殊子串。字符串 s 的从第i个字符开始的后缀表示为Suffix(i), 也就是Suffix(i)=r[i..len(s)]。

大小比较:关于字符串的大小比较,是指通常所说的“字典顺序”比较,也就是对于两个字符串u、v,令i 从1 开始顺次比较u[i]和v[i],如果u[i]=v[i]则令i加1,否则若u[i]<v[i]则认为u<v,u[i]>v[i]则认为u>v(也就是v<u),比较结束。如果 i>len(u)或者i>len(v)仍比较不出结果,那么,若len(u)<len(v)则认为u<v,若len(u)=len(v)则认为u=v,若len(u)>len(v)则u>v。

从字符串的大小比较的定义来看,S的两个开头位置不同的后缀u和v进行比较的结果不可能是相等,因为u=v的必要条件len(u)=len(v)在这里不可能满足。

后缀数组:后缀数组SA是一个一维数组,它保存1..n的某个排列SA[1],SA[2],……,SA[n],并且保证Suffix(SA[i])<Suffix(SA[i+1]),1<=i<n。也就是将S的n个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA中。

1 后缀数组求最长公共子串(LCS)

解法:将两个字符串用一个特殊符号(两个字符串中都没有,比如‘#’)连接起来,构造连接后字符串的后缀数组,求后缀数组中的最长公共前缀,要保证最长的公共前缀在原来两个字符串中都出现,而不是只出现在一个字符串中,这就是特殊连接符号的作用。

#include 
using namespace std;//用于qsort的比较函数int pstrcmp(const void *p, const void *q) { return strcmp(*(char**)p,*(char**)q); }//最长公共前缀int comlen_suff(char * p, char * q) { int len = 0; int count = 0; //保证两个子串中只有一个含有‘#’,LCS才来自两个字符串,否则可能来自同一个字符串 while(*p && *q && *p++ == *q++) { ++len; if(*p == '#' || *q == '#') { break; } } while(*p) { if(*p++ == '#') { ++ count; break; } } while(*q) { if(*q++ == '#') { ++ count; break; } } if(count == 1) return len; return 0; } //最长公共子串int LCS(char * X, char * Y) { char * suff[999]; int maxlen = 0; int suf_index; int xlen = strlen(X); int ylen = strlen(Y); int len_suff = xlen + ylen + 1; char * arr = new char[len_suff + 1]; // 将X和Y连接到一起 strcpy(arr,X); arr[xlen] = '#'; strcpy(arr + xlen + 1, Y); for(int i = 0; i < len_suff; ++i) // 初始化后缀数组 { suff[i] = &arr[i]; } qsort(suff, len_suff, sizeof(char *), pstrcmp); for(int i = 0; i < len_suff-1; ++i) { int len = comlen_suff(suff[i],suff[i+1]); if(len > maxlen) { maxlen = len; suf_index = i; } } printf("%.*s\n", maxlen, suff[suf_index]); delete[] arr; return maxlen;}int main(){ cout<
<

2 后缀数组求最长回文子串(LPS)

解法:将字符串的逆序与原来字符串用特殊符号连接,构造后缀数组,求后缀数组中的最长公共前缀,保证最长公共前缀出现在特殊连接符号的两端。

#include 
using namespace std;//用于qsort的比较函数int pstrcmp(const void *p, const void *q) { return strcmp(*(char**)p,*(char**)q); }//最长公共前缀int comlen_suff(char * p, char * q) { int len = 0; int count = 0; //保证两个子串中只有一个含有‘#’,LCS才来自两个字符串,否则可能来自同一个字符串 while(*p && *q && *p++ == *q++) { ++len; if(*p == '#' || *q == '#') { break; } } while(*p) { if(*p++ == '#') { ++ count; break; } } while(*q) { if(*q++ == '#') { ++ count; break; } } if(count == 1) return len; return 0; }//最长回文子串int LPS(char * X) { char * suff[999]; int maxlen = 0; int suf_index; int xlen = strlen(X); int len_suff = 2 * xlen + 1; char * arr = new char[len_suff + 1]; // 将X和逆序X连接到一起 strcpy(arr,X); arr[xlen] = '#'; char *p = X; char *q = arr + len_suff; *q = '\0'; while(*p && (*--q = *p++)); // 逆序复制 for(int i = 0; i < len_suff; ++i) // 初始化后缀数组 { suff[i] = &arr[i]; } qsort(suff, len_suff, sizeof(char *), pstrcmp); for(int i = 0; i < len_suff-1; ++i) { int len = comlen_suff(suff[i],suff[i+1]); if(len > maxlen) { maxlen = len; suf_index = i; } } printf("%.*s\n", maxlen, suff[suf_index]); delete[] arr; return maxlen;}int main(){ cout<
<

3 后缀数组求最长重复子串(LRS)

解法:构造字符串的后缀数组,对后缀数组排序,再两两比较得到最长的重复子串

//compare funciton used by qsort()int pstrcmp(const void *p, const void *q){    return strcmp(*(char **)p, *(char **)q);}//get max common length of string p and qint comlen(char *p, char *q){    int len = 0;    while (*p && (*p++ == *q++))        len++;    return len;}//get max repeat substring of str int find_max_repeat(char* str, char* result, int & len){    int temlen, maxi, maxlen = -1;    char *a[99999];    int n = 0;    while (*str != '\0')    {        a[n++] = str++;    }    qsort(a, n, sizeof(char *), pstrcmp);    for (int i = 0; i < n-1; i++)    {        temlen = comlen(a[i], a[i+1]);        if (temlen > maxlen)        {            maxlen = temlen;            maxi = i;        }    }    result = a[maxi];    len = maxlen;    printf("%.*s\n", maxlen, result);    return maxlen;}

4 后缀数组求最长的没有重复字符的子串

解法:对这个字符串构造后缀数组,在每个后缀数组中,寻找没有重复字符的最长前缀,就是要找的子串。

//得到字符串最长的无重复的前缀长度int longestlen(char * p){    int hash[256];    int len = 0;    memset(hash,0,sizeof(hash));    while (*p && !hash[*p])    {        hash[*p] = 1;        ++ len;        ++ p;    }    return len;}//使用后缀数组解法int longest_unique_substring(char * str){    int maxlen = -1;    int begin = 0;    char *a[99999];    int n = 0;    while(*str != '\0')    {        a[n++] = str++;    }    for (int i=0; i
maxlen) { maxlen = temlen; begin = i; } } printf("%.*s\n", maxlen, a[begin]); return maxlen;}

 

作者:
出处:
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
http://www.cnblogs.com/luxiaoxun/archive/2012/10/05/2712131.html
你可能感兴趣的文章
centos7安装cacti-1.0
查看>>
3个概念,入门 Vue 组件开发
查看>>
没有JS的前端:体积更小、速度更快!
查看>>
数据指标/表现度量系统(Performance Measurement System)综述
查看>>
GitHub宣布推出Electron 1.0和Devtron,并将提供无限制的私有代码库
查看>>
Angular2, NativeScript 和 React Native比较[翻译]
查看>>
论模式在领域驱动设计中的重要性
查看>>
京东AI研究院何晓冬:将先进的技术和模型落地到产业
查看>>
国内首例:飞步无人卡车携手中国邮政、德邦投入日常运营
查看>>
微软将停止对 IE 8、9和10的支持
查看>>
微服务架构会和分布式单体架构高度重合吗
查看>>
如何测试ASP.NET Core Web API
查看>>
《The Age of Surge》作者访谈
查看>>
测试人员的GitHub
查看>>
Spring Web Services 3.0.4.RELEASE和2.4.3.RELEASE发布
查看>>
有关GitHub仓库分支的几个问题
查看>>
无服务器计算的黑暗面:程序移植没那么容易
查看>>
云原生的浪潮下,为什么运维人员适合学习Go语言?
查看>>
Java生成GUID的方法
查看>>
Webpack入门教程三十
查看>>