字典树--字符串快速检索法
字典树
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。
它有3个基本性质:根节点不包含字符,除根节点外每一个节点都只包含一个字符。 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。 每个节点的所有子节点包含的字符都不相同。
其基本操作有:查找 插入和删除,当然删除操作比较少见.我在这里只是实现了对整个树的删除操作,至于单个word的删除操作也很简单.
典型应用:
1:串的快速检索:给出N个单词组成的熟词表,以及一篇全用小写英文书写的文章,请你按最早出现的顺序写出所有不在熟词表中的生词。
在这道题中,我们可以用数组枚举,用哈希,用字典树,先把熟词建一棵树,然后读入文章进行比较,这种方法效率是比较高的。2:串排序
给定N个互不相同的仅由一个单词构成的英文名,让你将他们按字典序从小到大输出
3:最长公共前缀问题:
对所有串建立字典树,对于两个串的最长公共前缀的长度即他们所在的结点的公共祖先个数,于是,问题就转化为最近公共祖先问题(以后补上)。
ACM用模板:
#include <iostream>using namespace std;#define MAX 26 //字符集大小typedef struct TrieNode {int nCount; //记录该字符出现次数struct TrieNode *next[MAX];}TrieNode;TrieNode Memory[1000000];int allocp =0;/*初始化*/void InitTrieRoot(TrieNode **pRoot) {*pRoot = NULL;}/*创建新结点*/TrieNode *CreateTrieNode() {int i;TrieNode *p;p =&Memory[allocp++];p->nCount =1;for(i =0 ; i < MAX ; i++) {p->next[i] = NULL;}return p;}//插入 void InsertTrie(TrieNode **pRoot , char*s) {int i , k;TrieNode *p;if(!(p =*pRoot)) {p =*pRoot = CreateTrieNode();}i =0;while(s[i]) {k = s[i++] -'a'; //确定branchif(p->next[k])p->next[k]->nCount++;elsep->next[k] = CreateTrieNode();p = p->next[k];}}//查找 int SearchTrie(TrieNode **pRoot , char*s) {TrieNode *p;int i , k;if(!(p =*pRoot)) {return 0;}i =0;while(s[i]) {k = s[i++] -'a';if(p->next[k] == NULL) return 0;p = p->next[k];}return p->nCount;}