跪求字符串(中文)模糊匹配算法
如题,最好是C/C++语言写的
[解决办法]
1.BF(Brute-Force)算法是一种简单直观的模式匹配算法。其基本思想为:首先将主串中的第一个字符s1与模式t中的第一个字符t1进行比较,若相等,则继续逐个比较后继字符;否则,就将s中的第二个字符s2与t1进行比较,依次类推,直到t中每一个字符依次和s中的一个连续字符序列相等(匹配成功),返回该字符序列中第一个字符在主串中的位置;或者在s中找不到和t相等的字符序列(匹配失败),返回0。BF算法的实现如下:
int strIndex_BF(SqString s,SqString t)
{
int i =1,j=1;
while(i<=s.length&&j<=t.length)
{
if(s.ch[i]==t.ch[i])
{
i++;j++;
}
else
{
i=i-j+2;j=1;
}
if(j>t.length) return(i-t.length);
else return 0;
}
}
该算法最坏情况下要进行M*(N-M+1)次比较,时间复杂度为O(M*N)。
2.KMP算法
这是一种改进的模式匹配的算法。对于BF算法其最大的改进就是:利用模式中隐含的“部分匹配”的信息,使的在出现失配情况下,进行下一次比较时主串中的i指针(指向失配字符)不需要回溯,而将模式中的j指针(指向下一次比较的位置)向后“滑动”一个尽可能远的距离继续进行。此滑动K由next函数求的。
算法描述为:假设以指针i和j分别增1;若si不等于tj,则i不变,j退到next(j)位置再比较,如此循环往复,直至在主串中找到与模式串相等的子串或者搜索完整个主串后也没发现与模式串相等的字串,算法结束。
求next函数算法:
void get_next(sstring T, int &next[])
{
//求模式串T的next函数值并存入数组next,next下标从1开始有实际意义。
j=1; k=next[j]=0;
while (j<T[0]) //计算next(j)从next(2)到next(T[0]),T[0]是T的长度
//但并不意味着只循环m-1次,因为在循环体中j的值可能不发生变化
if (k==0||T[j]==T[k])// 没有重叠真子串和(有重叠真子串但T[j]==T[k])时
//都应该得出next(j+1)的值
next[++j]=++k;//书上:{++j ; ++k; next[j]=k;}
else k=next(k);//否则,得不出next(j+1)的值,所以j不变,k退回到next(k),重复匹配。
}//end of get_next
KMP算法:
int index_KMP(sstring s, sstring t, int pos)
{
//利用模式串的next函数求t在主串s中第pos个字符之后的位置的KMP算法,
//t非空,1<=pos<=strlength(s)
i=pos; j=1;
while(i<=s[0]&&j<=t[0])
{
if (j==0||s[i]==t[j]){++i;++j;}
else j=next[j];
}
if (j>t[0]) return i-t[0];
else return 0;
}//index_kmp