分類

惡魔傳說 2015-11-26

展開全文

分類是將一個未知樣本分到幾個預(yù)先已知類的過程。數(shù)據(jù)分類問題的解決是一個兩步過程：第一步，建立一個模型，描述預(yù)先的數(shù)據(jù)集或概念集。通過分析由屬性描述的樣本（或?qū)嵗?，對象等）來?gòu)造模型。假定每一個樣本都有一個預(yù)先定義的類，由一個被稱為類標(biāo)簽的屬性確定。為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集，這一步也稱作有指導(dǎo)的學(xué)習(xí)。

在眾多的分類模型中，應(yīng)用最為廣泛的兩種分類模型是決策樹模型（Decision Tree Model）和樸素貝葉斯模型（Naive Bayesian Model，NBC）

決策樹模型通過構(gòu)造樹來解決分類問題。首先利用訓(xùn)練數(shù)據(jù)集來構(gòu)造一棵決策樹，一旦樹建立起來，它就可為未知樣本產(chǎn)生一個分類。優(yōu)點：決策樹便于使用，而且高效；根據(jù)決策樹可以很容易地構(gòu)造出規(guī)則，而規(guī)則通常易于解釋和理解；決策樹可很好滴擴(kuò)展到大型數(shù)據(jù)庫中，同時它的大小獨立于數(shù)據(jù)庫的大??；可以對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。缺點：處理缺失數(shù)據(jù)時的困難，過度擬合問題的出現(xiàn)，以及忽略數(shù)據(jù)集中屬性之間的相關(guān)性等。

NBC發(fā)源于古典數(shù)學(xué)理論，有著堅實的數(shù)學(xué)技術(shù)，以及穩(wěn)定的分類效率。同時，NBC模型所需估計的參數(shù)很少，對缺失數(shù)據(jù)不太敏感，算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此，這是因為NBC模型假設(shè)屬性之間相互獨立，這個假設(shè)在實際應(yīng)用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。

解決這個問題的方法一般是建立一個屬性模型，對于不相互獨立的屬性，把他們單獨處理。例如中文文本分類識別的時候，我們可以建立一個字典來處理一些詞組。如果發(fā)現(xiàn)特定的問題中存在特殊的模式屬性，那么就單獨處理。

這樣做也符合貝葉斯概率原理，因為我們把一個詞組看作一個單獨的模式，例如英文文本處理一些長度不等的單詞，也都作為單獨獨立的模式進(jìn)行處理，這事自然語言與其他分類識別問題的不同點。

在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時，NBC模型的分類效率比不上決策樹模型。但這點有待驗證，因為具體的問題不同，算法得出的結(jié)果不同，同一個算法對于同一個問題，只要模式發(fā)生變化，也存在不同的識別性能。

決策樹對于文本分類識別，要看具體情況。在屬性相關(guān)性較小時，NBC模型的性能稍微為良好。屬性相關(guān)性較小時候，其他的算法性能也很好，這是由于信息熵理論決定的。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：惡魔傳說 > 《機(jī)器學(xué)習(xí)》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

惡魔傳說

關(guān)注對話

TA的最新館藏

盤點 2014 電影營銷大戰(zhàn)經(jīng)典案例
盤點 2014 電影營銷大戰(zhàn)經(jīng)典案例
當(dāng)25年經(jīng)典電影遇上19年社交老手，原來電影營銷還可以這么玩
當(dāng)25年經(jīng)典電影遇上19年社交老手，原來電影營銷還可以這么玩
中茶攜手張藝謀作品《影》,打造文化IP的新型營銷
話劇《青蛇》傾城滬上秦海璐學(xué)小青勇敢找出路

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分類