小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

用Excel建模進(jìn)行決策樹(shù)分析

 F2967527 2021-01-12

       決策樹(shù)(Decision Tree)在機(jī)器學(xué)習(xí)中也是比較常見(jiàn)的一種算法,最早的決策樹(shù)算法是ID3,改善后得到了C4.5算法,進(jìn)一步改進(jìn)后形成了我們現(xiàn)在使用的C5.0算法,綜合性能大幅提高。

       算法核心:為每一次分裂確定一個(gè)分裂屬性。ID3采用的是“信息增益”為度量來(lái)選擇分裂屬性的。

       本文在Excel中建模進(jìn)行決策樹(shù)分析,屬于基礎(chǔ)的決策樹(shù)學(xué)習(xí),有興趣的可以在SPSS Modeler和Python中進(jìn)行操作。

樹(shù)模型(又稱(chēng)決策樹(shù)或者樹(shù)結(jié)構(gòu)模型):基本思想和方差分析中的變異分解極為相似。
目的(基本原則):將總研究樣本通過(guò)某些牲(自變量取值)分成數(shù)個(gè)相對(duì)同質(zhì)的子樣本。每一子樣本因變量的取值高度一致,相應(yīng)的變異/雜質(zhì)盡量落在不同子樣本間。所有樹(shù)模型的算法都遵循這一基本原則。
不同樹(shù)模型差異:差異在于對(duì)變異/雜質(zhì)的定義不同。比如P值、方差、熵、Gini指數(shù)(基尼指數(shù))、Deviance等作為測(cè)量指標(biāo)。

決策樹(shù)圖例

 現(xiàn)在我們來(lái)分析天氣、溫度、濕度、風(fēng)這些屬性對(duì)打球的影響

首先確定樣本集信息熵,然后計(jì)算各個(gè)屬性的信息增益進(jìn)行對(duì)比分析。

熵:數(shù)據(jù)集中的不確定性、突發(fā)性或隨機(jī)性的程度的度量。當(dāng)一個(gè)數(shù)據(jù)集中的記錄全部都屬于同一類(lèi)的時(shí)候,則沒(méi)有不確定性,此時(shí)熵為0。

信息增益:按照某個(gè)屬性A把數(shù)據(jù)集S分裂,所得到的信息增益等于數(shù)據(jù)集S的熵減去各個(gè)子集的熵的加權(quán)和。

計(jì)算是否打球的概率:

計(jì)算天氣對(duì)打球的影響:

 I(晴天)=-0.25*log(0.25,2)-0.75*log(0.75,2)=0.811278

E(天氣)=0.285714*0.811278+0.357143*0+0.357143*0.70951=0.578562

Gain(天氣)=E(all)-E(天氣)=0.940286-0.578562=0.361724

經(jīng)計(jì)算得出天氣的信息增益為0.361724,溫度、濕度和風(fēng)計(jì)算步驟類(lèi)似

 

 對(duì)各屬性的信息增益進(jìn)行降序排序,選擇最大的作為分裂屬性

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多