最近需要实现一项功能,对字符串进行敏感词、文字过滤。这里做下记录,便于后期学习。
一、DFA简介
在实现文字过滤的算法中,DFA是唯一比较好的实现算法。DFA即Deterministic Finite Automaton,也就是确定有穷自动机,它是是通过event和当前的state得到下一个state,即event+state=nextstate。下图展示了其状态的转换
在这幅图中大写字母(S、U、V、Q)都是状态,小写字母a、b为动作。通过上图我们可以看到如下关系
a b b
S -----> U S -----> V U -----> V
在实现敏感词过滤的算法中,我们必须要减少运算,而DFA在DFA算法中几乎没有什么计算,有的只是状态的转换。
参考文献: http://www.iteye.com/topic/336577
二、iOS 运用DFA算法实现敏感词过滤
在iOS中实现敏感词过滤的关键就是DFA算法的实现。首先我们对上图进行剖析,例如我们的敏感词库中存在如下几个敏感词:斗罗大陆、唐门、唐三小舞。那么我需要构建的结构如下:
这样我们就将我们的敏感词库构建成了一个类似与一颗一颗的树,这样我们判断一个词是否为敏感词时就大大减少了检索的匹配范围。比如我们要判断唐门,根据第一个字我们就可以确认需要检索的是那棵树,然后再在这棵树中进行检索。但是如何来判断一个敏感词已经结束了呢?利用标识位来判断。即:每个树枝都增加一个结束标识。
弊端——nextWord得以解决,具体参照程序
关键程序实现如下:
//创建Node
- (void)addFilterWords: (NSArray *)filterWords {
self.root = [NSMutableDictionary dictionary];
for (NSString *str in filterWords) {
if(str.length > 0)
[self insertWords:str];
}
}
//敏感词words 插入树枝,
-(void)insertWords:(NSString *)words{
NSMutableDictionary *node = self.root;
/*
1、当i==0, node == self.root
当i>=1, node == self.root[word]
*/
for (int i = 0; i < words.length; i ++) {
NSString *word = [words substringWithRange:NSMakeRange(i, 1)];
if (node[word] == nil) {
node[word] = [NSMutableDictionary dictionary];
}
node = node[word]; //指向self.root[word]
}
//敏感词最后一个字符标识
node[EXIST] = [NSNumber numberWithInt:1];
}
//过滤str中得敏感字
- (NSString *)filter:(NSString *)str {
if (self.isFilterClose || !self.root) {
return str;
}
NSMutableString *result = result = [str mutableCopy];
for (int i = 0; i < str.length; i ++) {
NSString *subString = [str substringFromIndex:i];
NSMutableDictionary *node = [self.root mutableCopy] ;
int num = 0;
for (int j = 0; j < subString.length; j ++) {
NSString *word = [subString substringWithRange:NSMakeRange(j, 1)];
//解决上图弊端
NSString *nextWord;
if (j+1<subString.length) {
nextWord = [subString substringWithRange:NSMakeRange(j+1, 1)];
}
if (node[word] == nil) {
break;
}else{
num ++;
node = node[word];
}
//有节点,并且不存在下一个枝干,则敏感词匹配成功
if ([node[EXIST]integerValue] == 1 && node[nextWord] == nil) {
NSMutableString *symbolStr = [NSMutableString string];
for (int k = 0; k < num; k ++) {
[symbolStr appendString:@"*"];
}
[result replaceCharactersInRange:NSMakeRange(i, num) withString:symbolStr];
i += j;
break;
}
}
}
return result;
}