小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

分類

 惡魔傳說 2015-11-26

             分類是將一個未知樣本分到幾個預(yù)先已知類的過程。數(shù)據(jù)分類問題的解決是一個兩步過程:第一步,建立一個模型,描述預(yù)先的數(shù)據(jù)集或概念集。通過分析由屬性描述的樣本(或?qū)嵗?,對象等)來?gòu)造模型。假定每一個樣本都有一個預(yù)先定義的類,由一個被稱為類標(biāo)簽的屬性確定。為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集,這一步也稱作有指導(dǎo)的學(xué)習(xí)。

        在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)

              決策樹模型通過構(gòu)造樹來解決分類問題。首先利用訓(xùn)練數(shù)據(jù)集來構(gòu)造一棵決策樹,一旦樹建立起來,它就可為未知樣本產(chǎn)生一個分類。優(yōu)點:決策樹便于使用,而且高效;根據(jù)決策樹可以很容易地構(gòu)造出規(guī)則,而規(guī)則通常易于解釋和理解;決策樹可很好滴擴(kuò)展到大型數(shù)據(jù)庫中,同時它的大小獨立于數(shù)據(jù)庫的大??;可以對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。缺點:處理缺失數(shù)據(jù)時的困難,過度擬合問題的出現(xiàn),以及忽略數(shù)據(jù)集中屬性之間的相關(guān)性等。

          NBC發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)技術(shù),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。

           解決這個問題的方法一般是建立一個屬性模型,對于不相互獨立的屬性,把他們單獨處理。例如中文文本分類識別的時候,我們可以建立一個字典來處理一些詞組。如果發(fā)現(xiàn)特定的問題中存在特殊的模式屬性,那么就單獨處理。

         這樣做也符合貝葉斯概率原理,因為我們把一個詞組看作一個單獨的模式,例如英文文本處理一些長度不等的單詞,也都作為單獨獨立的模式進(jìn)行處理,這事自然語言與其他分類識別問題的不同點。

        在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。但這點有待驗證,因為具體的問題不同,算法得出的結(jié)果不同,同一個算法對于同一個問題,只要模式發(fā)生變化,也存在不同的識別性能。

       決策樹對于文本分類識別,要看具體情況。在屬性相關(guān)性較小時,NBC模型的性能稍微為良好。屬性相關(guān)性較小時候,其他的算法性能也很好,這是由于信息熵理論決定的。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多