http://blog.csdn.net/9731boy/Rss.aspx CLucene是C++版的全文檢索引擎,完全移植于Lucene,不過(guò)對(duì)中文支持不好,而且有很多的內(nèi)存泄露,:P Cluene不支持中文的分詞,我就寫了一個(gè)簡(jiǎn)單的中文分詞,大概思路就是傳統(tǒng)的二分詞法,因?yàn)橹形牡姆衷~不像英文這類的語(yǔ)言,一遇到空格或標(biāo)點(diǎn)就認(rèn)為是一個(gè)詞的結(jié)束,所以就采用二分詞法,二分詞法就是例如:北京市,就切成 北京 , 京市。if(((char_t)ch>>8)&&(char_t)ch>=0xa0) isChinese = true; |
|