«October 2025»
1234
567891011
12131415161718
19202122232425
262728293031


公告

本站技术贴除标明为“原创”的之外,其余均为网上转载,文中我会尽量保留原作者姓名,若有侵权请与我联系,我将第一时间做出修改。谢谢!

             ——既瑜


天气预报(南京)


我的分类(专题)

首页(183)
【趣味文摘】(22)
【五子连珠】(13)
【技术文档】(136)
【电脑技术】(6)
【疑难问题】(1)
【我的心情】(5)


最新日志
花语(中英文对照版)
各种花的花语
NTFS格式的7个精彩问答(pconli
童言无忌,有趣得一蹋
给MM修电脑的三个步骤[转载]
J2EE 面试题综合
JAVA编程规则
[转] P2P之UDP穿透NAT的原理与
[转]词法分析器
文件加密技术
一个让人发狂的PI求解C程序
[转]直线生成算法之DDA
[转]利用内核对象----互斥量实现应用
[转]如何正确的计算文件收发进度
双机调试VC程序
[转]分治法优化大整数乘法 C++实现
浮点数值的内存结构
[转]双链表实现大整数的加法与乘法[VC
拜占廷将军问题[转]
某人的挂QQ的程序源代码,虽然没用了,拿

最新回复
回复:vc中的CString的操作
回复:[转]分治法优化大整数乘法 C++
回复:[转]分治法优化大整数乘法 C++
回复:花语(中英文对照版)
回复:基本排序算法比较与选择[转载]
回复:c++中强制类型转换操作符小结
回复:c++中强制类型转换操作符小结
何必那么执着于是大头猫还是愤怒的小鸟,淡
回复:浮点数值的内存结构
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:32位位图到24位位图的转换
dren, ages 16 and 20
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:各种花的花语

留言板
签写新留言

不是0-1背包喔
桂花的花语``
谢谢
提议
提议

统计
blog名称:★既瑜★
日志总数:183
评论数量:636
留言数量:-25
访问次数:1417179
建立时间:2005年3月12日

链接


http://www.nju.edu.cn
http://bbs.nju.edu.cn 
http://www.t7-online.com
http://www.csdn.net
http://www.91f.net
http://www.crsky.com
我的MSN BLOG 

联系我

  OICQ:215768265
  njucs2001@hotmail.com
  erichoo1982@gmail.com

 

W3CHINA Blog首页    管理页面    写新日志    退出


[【技术文档】]使KMP算法支持中文字符集
既瑜(224499) 发表于 2005/3/19 10:49:25

(by flyhigh) KMP算法是字符串模式匹配算法,可以很大程度上提高匹配速度,关于这个算法及其原理我不多说了,有兴趣的话可以在《数据结构》中找到详细的说明。 但是目前从网上能够找到的算法实现都没有解决DBCS字符集的问题。 举个例子: 主串:唋mcabclmc 模式串:lmc 注:唋=0x86+0x6C,0x6C=’l’ 如果你用普通的KMP算法你会找到两个位置:1,7,但事实上只有第7个位置是我们需要的。 通过下面简单的改造我们就可以让它支持中文字符集。 改进后的代码: NEXT算法不变:void KMP_NEXT(const char *pszPattern,int nSize,int *pNextRecv){    pNextRecv[0]=-1;                 for(int i=1;i<nSize;i++ ) {        int j=pNextRecv[i-1];        while(pszPattern[i]!=pszPattern[j+1]&& j>=0 )   j=pNextRecv[j] ;  //递推计算        if(pszPattern[i]==pszPattern[j+1])   pNextRecv[i]=j+1;          else   pNextRecv[i]=0;  //    }    }  解决这个问题的核心就是在和主串的比较时,一滑过一个单位为一个DBCS字符,看下面的KMP_DBCS算法://-------------------------------------------------------// 经过多字节字符集过滤处理后的KMP算法//-------------------------------------------------------int KMP_DBCS(const char *pszText,int nPos,const char *pszPattern,int nPatternSize,int *pNext){ int nRet=-1; int bTmpNext=pNext==NULL; if(bTmpNext) {  pNext=new int[nPatternSize];  KMP_NEXT(pszPattern,nPatternSize,pNext); } int nLength=strlen(pszText); int i=nPos,j=0; while(i<nLength && nRet==-1) {  //计算当前字符长度  int nCharSize=0;  if(pszText[i]>0)   nCharSize=1;  else if(pszText[i+1]<0x40)   nCharSize=4;  else   nCharSize=2;  int bMatch=0;  if(j+nCharSize<=nPatternSize)   bMatch=memcmp(pszText+i,pszPattern+j,nCharSize)==0;  if(bMatch)  {   i+=nCharSize;   j+=nCharSize;   if(j==nPatternSize) nRet=i-nPatternSize;  }else  {   int nNext=pNext[j];   if(nNext==-1)   {    i+=nCharSize;    j=0;   }else   {    j=nNext;   }  } } if(bTmpNext) delete []pNext; return nRet;} 上面代码支持GB18030标准。 普通的KMP//-------------------------------------------------------// 普通KMP算法//-------------------------------------------------------int KMP(const char *pszText,int nPos,const char *pszPattern,int nPatternSize,int *pNext){ int nRet=-1; int bTmpNext=pNext==NULL; if(bTmpNext) {  pNext=new int[nPatternSize];  KMP_NEXT(pszPattern,nPatternSize,pNext); } int nLength=strlen(pszText); int i=nPos,j=0; while(i<nLength && nRet==-1) {  if(pszText[i]==pszPattern[j])  {   i++;   j++;   if(j==nPatternSize) nRet=i-nPatternSize;  }else  {   j=pNext[j];   if(j==-1) i++,j=0;  } } if(bTmpNext) delete []pNext; return nRet;} 使用示例:int main(int argc, char *argv[]){    char * s="aba癬ghc_ghabcacabaabc_ghbaab__ghca_gc_g_gb_ghcacab"; char * r="          0         0         0         0         0";    char * t="_gh"; cout<<s<<endl<<r<<endl; int ps=strlen(t); int *pnext=new int[ps]; KMP_NEXT(t,ps,pnext); cout<<"KMP_DBCS output:"<<endl; int nRet=KMP_DBCS(s,0,t,ps,pnext); int nCount=0; while(nRet!=-1) {  cout<<"pos="<<nRet<<endl;  nCount++;  nRet=KMP_DBCS(s,nRet+ps,t,ps,pnext); } cout<<"count="<<nCount<<endl; cout<<"KMP output"<<endl; nRet=KMP(s,0,t,ps,pnext); nCount=0; while(nRet!=-1) {  cout<<"pos="<<nRet<<endl;  nCount++;  nRet=KMP(s,nRet+ps,t,ps,pnext); } cout<<"count="<<nCount<<endl; delete []pnext; system("PAUSE");  return 0;} 以上代码在VC6中执行通过.

阅读全文(3417) | 回复(0) | 编辑 | 精华


发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.492 second(s), page refreshed 144793455 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号