读书人

dspam词法分析-链式瓜分

发布时间: 2012-07-01 13:15:00 作者: rapoo

dspam词法分析-链式分割
转http://www.extmail.org/forum/thread-21828-1-1.html
基于贝叶斯网络的二元语法中文分词模型
w2|w1就是w1出现的情况下w2出现的概率
跟顺序有关系

一、声明:本文源自翻译Dspam的技术文档,如其他个人、第三方网站或媒体报刊等需转载全文或节选,为支持我们的工作,请务必注明如下信息:文档所有者:ExtmailDevTeam;文章原始出处:http://www.extmail.org/forum/thread-21828-1-1.html项目首页:http://www.extmail.org如果因此而给您带来麻烦,请您原谅,谢谢合作;发布本文的初衷,是为了提高大家对Dspam分词技术的了解;感谢Stevan Baji?提供的支持;文章的OSB、SBPH 备注 部分摘自 谭营、朱元春 的 "反垃圾电子邮件方法研究"备注:关于“Token”的一些解释Tokenizer 分词器,通过逐字符的分析输入流进行词法分析token :令牌tokenize :令牌化tokenizer :令牌解析器token :标记tokenize :标记解析 或 解析标记tokenizer :标记解析器现在要解释tokenizers如何创建令牌/模式,这样做是因为我希望新的用户不要多次问同一个问题。我只解释相关的令牌生成部分。Dspam 的使用算法超出了本文的范围。Dspam产生不同的tokens,这取决于你所选用的tokenizer。二、Dspam的几种分词技术1、WORDTokenizer 将词分成单个单词。例如文本:"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht "将分成为:1、 Heute2、 Abend3、 war4、 ich5、 mit6、 meiner7、 Freundin8、 im9、 Kino10、und11、habe12、viel13、gelachtDSPAM将为每个单词创建tokens:* TOKEN: 'Heute' CRC: 6716984897371635712* TOKEN: 'Abend' CRC: 6670531613365895168* TOKEN: 'war' CRC: 4772677679197454336* TOKEN: 'ich' CRC: 6329956816985784320* TOKEN: 'mit' CRC: 5158417007107899392* TOKEN: 'meiner' CRC: 4773009072114954240* TOKEN: 'Freundin' CRC:13580161102417572361* TOKEN: 'im' CRC: 5811385145726337024* TOKEN: 'Kino' CRC: 6035516550826426368* TOKEN: 'und' CRC: 6670506629311496192* TOKEN: 'habe' CRC: 6712962585043402752* TOKEN: 'viel' CRC: 5844870173739188224* TOKEN: 'gelacht' CRC: 51588299934650322082、CHAINTokenizer CHAIN 分散同样的信息为(+ = 组合词):例如文本:"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht "1、 Heute+Abend2、 Abend+war3、 war+ich4、 ich+mit5、 mit+meiner6、 meiner+Freundin7、 Freundin+im8、 im+Kino9、 Kino+und10、und+habe11、habe+viel12、viel+gelacht DSPAM将为每个chain创建tokens:* TOKEN: 'Heute+Abend' CRC: 9299536586222406967* TOKEN: 'Abend+war' CRC: 5205867775940263209* TOKEN: 'war+ich' CRC: 6329956649787979024* TOKEN: 'ich+mit' CRC: 5158416839735805488* TOKEN: 'mit+meiner' CRC: 9567822050683308311* TOKEN: 'meiner+Freundin' CRC:11339548565549479056* TOKEN: 'Freundin+im' CRC: 7816109150855533158* TOKEN: 'im+Kino' CRC: 6035516551245899312* TOKEN: 'Kino+und' CRC: 3139684354012378707* TOKEN: 'und+habe' CRC: 2029218973535212134* TOKEN: 'habe+viel' CRC:15552379170419714363* TOKEN: 'viel+gelacht' CRC: 5059261385542544937

读书人网 >开源软件

热点推荐