我們已經(jīng)發(fā)出了李連江教授的《戲說統(tǒng)計》課程中的三篇學(xué)習(xí)筆記:相關(guān)分析、顯著性檢驗與回歸分析。今天,我們將發(fā)出第四篇學(xué)習(xí)筆記:多元回歸分析。希望我們的整理可以繼續(xù)供大家討論學(xué)習(xí)。 多元回歸分析 多變項分析:由面到體 一果多因:多元回歸分析 提綱: 1. 一果多因,與哲學(xué)上所說的一因多果相對應(yīng) 2. 凈(偏)回歸系數(shù) 3. 多元回歸系數(shù)是合力 比如正相關(guān)和負(fù)相關(guān),正相關(guān)就是往上拉,負(fù)相關(guān)就是往下拉。當(dāng)有多個自變量的時候,有的自變量往上拉,有的自變量往下拉,最后形成的力量就是合力。 4. 判定系數(shù)告訴我們合力的威力 如果只有一個自變量,那么判定系數(shù)就告訴我們這一個自變量可以解釋掉方差的百分之多少。如果有多個自變量,那么就是這幾個自變量合在一起的合力能夠解釋掉方差的百分之多少。 正文: 第一點,一果多因 我們想了解為什么工資會因人而異,頭幾次我們考慮到會不會是受教育程度影響。但是我們根據(jù)常識也好,根據(jù)科學(xué)研究也好,我們知道一個結(jié)果不是因為一個原因。一果多因的情況要求我們解釋一個結(jié)果的出現(xiàn)或者因變項的變異的時候考慮到不止一個自變項,這個時候就要運用到多元回歸分析。多元指的是有兩個或兩個以上的自變項,這里需要注意的是回歸分析只允許有一個因變量。多元回歸分析不是簡單的多變項回歸分析,而是多個自變項回歸分析。 這個圖表中,因變量是現(xiàn)在的年薪(紅色圈中)。在前面的分析中我們只看教育程度對工資的影響,現(xiàn)在我們既看教育程度又看是不是經(jīng)理以及是不是少數(shù)民族。在分析教育程度對工資的影響的時候,我們看到教育程度每增加一年,工資會增加3909。但是現(xiàn)在的表中不是3909了,變成了1620了。原因是什么呢?原因是只看教育程度對工資的影響,看的是它的毛重。這個毛重里面,有一部分是教育程度的,還有一部分是受教育程度影響的人是不是能夠當(dāng)經(jīng)理,這一部分是當(dāng)經(jīng)理的貢獻(xiàn)。我們現(xiàn)在如果把當(dāng)經(jīng)理的貢獻(xiàn)拿掉以后,再看教育程度的貢獻(xiàn),仍然是教育程度每增加一年,會對工資有一定影響。但是這個影響已經(jīng)不是3909了,而是1620,1620就是所謂的凈回歸系數(shù)。這里仍然是未標(biāo)準(zhǔn)化的回歸系數(shù),也就是說這里變化一個單位是按照它原來測算的單位。原來我們測算教育程度的時候,1就是1年,2就是2年,所以每變化一個單位就是變化10年。1620是指工資的變化,一年里面一個美元作為測量單位。那么為什么會出現(xiàn)28361這么大的數(shù)呢?這個大的數(shù)是因為我們測量是不是當(dāng)經(jīng)理就是1和0。從0到1變化一個單位就是你從非經(jīng)理變成了經(jīng)理。那么你從0到1就意味著你的工資要增加28361。接下來我們分析一下少數(shù)民族這個因素。如果是1那么你就是少數(shù)民族,如果是0那么你就不是少數(shù)民族??聪嚓P(guān)系數(shù)首先是看它的正負(fù)號,然后看它的絕對值大小,還要看它是不是顯著的。在圖表中,我們可以看到其相對應(yīng)的顯著程度是0.47,這意味著我們?nèi)绻J(rèn)為少數(shù)民族的地位會影響工資的話,那么我們犯一類錯誤的概率是47%,這是我們無法承擔(dān)的,所以我們不會認(rèn)為它有顯著影響。這里的負(fù)數(shù)是指少數(shù)族裔的地位增加一個單位,那么工資是會減少的。這個時候我們看三個變項的力量的話,教育程度以及是不是經(jīng)理是使正勁的,少數(shù)族裔的地位是使倒勁的。多元回歸分析的時候考慮到多個變項對工資的影響是更貼近事件,更貼近現(xiàn)實的,但是也變得更加難以理解。在做雙變項分析的時候,我們培養(yǎng)一種鳥瞰能力,把整個地圖看清楚;講到多變項分析的時候,要培養(yǎng)空間的想象能力,因為是一個三維的甚至是多維的空間。比如說教育程度每增加一年,工資會增加1620;從非經(jīng)理變成經(jīng)理,工資會增加28361,我們很難想象這兩個變項是如何起作用的。教育程度和工資構(gòu)成一條面,是否是經(jīng)理和工資又構(gòu)成一條面,是不是少數(shù)民族跟工資構(gòu)成第三個面。這三個面交匯在一起,就不是二維空間,而是思維空間甚至是多維空間了。 第二點,凈(偏)回歸系數(shù) 什么叫凈貢獻(xiàn)?DV是因變量,淡藍(lán)色的地方指的是DV的方差。結(jié)合前面的知識,它是一個方差,是一個誤差的總量,而這個誤差的總量指的是如果我們僅僅根據(jù)DV一變量的平均值來猜測樣本里面所有的個體在這個屬性上的取值的話你會得到這么多的誤差。在圖中C就是工資總的方差,工資是一個因變項,僅僅根據(jù)這474個人的平均工資來猜測每個人具體的工資那會有一個誤差,誤差的總和除以樣本量得出的就是方差。方差總的大小就是C。那么我們考慮到一個解釋變量比如A,A是教育程度,如果我們僅僅看這兩個變項之間的關(guān)系,就相當(dāng)于我們是把紫色的部分拿掉。所以我們之前得出教育程度每增加一年可以解釋掉很大的工資的變化,因為右邊兩個圓交叉的部分是很大的。IV1和DV交叉的部分就是43%,但是如果今天我們再把B考慮進(jìn)來,就是第二個解釋變量,即經(jīng)理的變化。經(jīng)理的變化也可以解釋工資的變化,是不是當(dāng)經(jīng)理與教育程度又是相關(guān)的,所以經(jīng)理與教育程度之間也有交叉。那么教育程度可以解釋掉C的變化,經(jīng)理的變化也可以解釋掉C的變化,中間的黑色部分是交互重疊的地方。我們看教育程度對工資的影響,仍然是看D和F,但是我們看凈貢獻(xiàn)的時候,就必須把黑色部分去掉。同樣的,如果我們是看是否當(dāng)經(jīng)理對工資的影響,求凈貢獻(xiàn)的時候也是要把黑色部分去掉的。多個自變項對因變項總的解釋的時候,綠色、黑色以及藍(lán)色部分都在里面。藍(lán)色部分是當(dāng)經(jīng)理的凈貢獻(xiàn),綠色部分是教育程度的凈貢獻(xiàn),黑色部分是雙方共同的貢獻(xiàn)。這三個部分在一起就是教育程度和經(jīng)理對工資的總貢獻(xiàn)。 我們講到正態(tài)分布的時候提到正態(tài)分布有兩個要點,一個是平均值,另一個是標(biāo)準(zhǔn)差,這兩個要點幫助我們認(rèn)識世界的時候起到簡化的作用,就是我們可以把一個量給標(biāo)準(zhǔn)化。為什么要標(biāo)準(zhǔn)化呢?比如說我們看到是否是經(jīng)理變化一個單位,工資會變化28361;教育程度變化一個單位,工資會變化1620。這個時候我們就要思考教育程度與是否當(dāng)經(jīng)理到底哪一個貢獻(xiàn)大。這兩個變量是不能直接比的,因為它們的測量單位不一樣。如果想要比較它們之間的大小就需要把28361標(biāo)準(zhǔn)化,把1620也標(biāo)準(zhǔn)化,然后去看教育程度提高一個標(biāo)準(zhǔn)差,工資會變化幾個標(biāo)準(zhǔn)差,是否是經(jīng)理提高一個標(biāo)準(zhǔn)差,工資會變化幾個標(biāo)準(zhǔn)差。經(jīng)過標(biāo)準(zhǔn)化之后,就得到了紅色方框中的數(shù),分別是0.274,0.635和0.019。這里我們不需要考慮正負(fù)號,因為在正態(tài)分布下面,正數(shù)就是指往右邊走了幾步,負(fù)數(shù)就是指往左邊走了幾步,左右是對稱的,因此只看絕對值就可以比較出來這幾個自變項哪個對工資的影響最大。可以看出是否是經(jīng)理對工資的影響是最大的,但是這里只是比其它變項大了一倍多。是否是經(jīng)理上升了一個標(biāo)準(zhǔn)差,工資就會變化0.635個標(biāo)準(zhǔn)差;教育程度增加一個標(biāo)準(zhǔn)差,工資會增加0.274個標(biāo)準(zhǔn)差,這直接就比出來了。 第三點,判定系數(shù)告訴我們合力的威力 剛才提到了一下判定系數(shù),這個時候如果我們把這三個自變量的情況都考慮在內(nèi),總的平方和仍然是1379E,那么現(xiàn)在已經(jīng)可以解釋掉958E,剩下421E。之前我們討論過如果只考慮教育程度,還剩下771E誤差,也就是可以解釋掉43%的變異。我們考慮另外兩個變項之后三個變項合在一起可以解釋掉70%的變異,即70%的誤差。 |
|