回歸分析不可不知的關(guān)鍵詞和統(tǒng)計(jì)量

geoallan 2019-09-06

展開全文

“愛數(shù)據(jù)學(xué)習(xí)社”訂閱我吧!-

回歸分析關(guān)鍵詞

1、回歸（regression）：發(fā)生倒退或表現(xiàn)倒退；常指趨于接近或退回到中間狀態(tài)。在線性回歸中，回歸指各個觀察值都圍繞、靠近估計(jì)直線的現(xiàn)象。

2、多元回歸模型（multiple regression model）：包含多個自變量的回歸模型，用于分析一個因變量與多個自變量之間的關(guān)系。它與一元回歸模型的區(qū)別在于，多元回歸模型體現(xiàn)了統(tǒng)計(jì)控制的思想。

3、因變量（dependent variable）：也稱為依變量或結(jié)果變量，它隨著自變量的變化而變化。從試驗(yàn)設(shè)計(jì)角度來講，因變量也就是被試的反應(yīng)變量，它是自變量造成的結(jié)果，是主試觀測或測量的行為變量。

4、自變量（independent variable）：在一項(xiàng)研究中被假定作為原因的變量，能夠預(yù)測其他變量的值，并且在數(shù)值或?qū)傩陨峡梢愿淖儭?/p>

5、隨機(jī)變量（random variable）：即隨機(jī)事件的數(shù)量表現(xiàn)。這種變量在不同的條件下由于偶然因素影響，可能取各種不同的值，具有不確定性和隨機(jī)性，但這些取值落在某個范圍的概率是一定的。

6、連續(xù)變量（continuous variable）：在一定區(qū)間內(nèi)可以任意取值的變量，其數(shù)值是連續(xù)不斷的，相鄰兩個數(shù)值可作無限分割，即可取無限個數(shù)值，比如身高、體重等。

7、名義變量（nominal variable）：本身的編碼不包含任何具有實(shí)際意義的數(shù)量關(guān)系，變量值之間不存在大小、加減或乘除的運(yùn)算關(guān)系。

8、截距（intercept）：函數(shù)與y坐標(biāo)軸的相交點(diǎn)，即回歸方程中的常數(shù)項(xiàng)。

9、斜率（slope）：即回歸方程中各自變量的系數(shù)。它表示自變量一個單位的變化所引起的因變量的變化量，如果是線性模型，則在坐標(biāo)圖上表現(xiàn)為兩個變量擬合直線之斜率。

10、偏效應(yīng)（partial effect）：在控制其他變量的情況下，或者說在其他條件相同的情況下，各自變量X對因變量Y的凈效應(yīng)（net effect）或獨(dú)特效應(yīng)（unique effect）。

11、效應(yīng)幅度（size of effect）：指反映變量作用大小的具體數(shù)值。一個變量的系數(shù)可能在統(tǒng)計(jì)上顯著地區(qū)別于0，但是該系數(shù)的值卻不大，即效應(yīng)幅度很小，從而不具有很大的實(shí)質(zhì)性意義。

12、擬合優(yōu)度（goodness of fit）：指回歸模型對觀察數(shù)據(jù)的概括擬合程度，反映的是模型的效率，即模型在多大程度上解釋了因變量的變化。

13、誤差（error）：指可以避免或不可避免的觀測值和真實(shí)值之間的差。

14、預(yù)測值（predicted values）：通過根據(jù)估計(jì)的回歸模型代入解釋變量觀察值后計(jì)算得到的因變量值。

15、總平方和（sum of squares total）：即因變量觀察值與其平均值的離差平方和，是需要解釋的因變量的變異總量。

16、殘差平方和（sum of squares error）：因變量觀察值與對應(yīng)的回歸模型預(yù)測值的離差平方和。是觀察值落在回歸線（面）之外而引起的，是模型中各自變量對因變量線性影響之外的其他因素對因變量總平方和的影響。

17、回歸平方和（sum of squares regression）：通過回歸模型計(jì)算得到的因變量預(yù)測值與因變量觀察值的均值的離差平方和。這是由自變量變化引起的，是回歸模型所解釋的部分。

18、均方（mean square）：離差平方和除以相應(yīng)的自由度即可得到均方。在回歸分析中，研究者感興趣的是回歸均方（mean square regression，簡寫為MSR）和均方誤（mean square error，簡寫為MSE）。

19、判定系數(shù)（coefficient of determination）：回歸平方和占總平方和的比例，記為R2。通常把它理解為回歸方程解釋掉的平方和占其總平方和的比例。判定系數(shù)被用來作為對方程擬合優(yōu)度進(jìn)行測量的指標(biāo)，取值在[0，1]之間，值越大表明回歸方程的解釋能力越強(qiáng)。

20、判定系數(shù)增量（increamental R2）：在原有回歸模型基礎(chǔ)上，通過加入新的自變量所帶來的判定系數(shù)的增加量。

21、嵌套模型（nested models）：如果一個模型（模型一）中的自變量為另一個模型（模型二）中自變量的子集或子集的線性組合，我們就稱這兩個模型是嵌套模型。模型一稱為限制性模型（restricted model），模型二稱為非限制性模型（unrestricted model）。限制性模型嵌套于非限制性模型中。

22、虛擬編碼（dummy coding）：依據(jù)名義變量各類別對其進(jìn)行重新編碼從而令其能夠作為自變量納入回歸方程的編碼方式。對于一個包含J個類別的名義變量，理論上可以得到J個取值為0或1的虛擬變量，但在回歸分析中，通常只建構(gòu)J-1個虛擬變量”。每一虛擬變量對應(yīng)著原名義變量的一個類別，如果屬于該類別則虛擬變量取值為1，否則取值為0。

23、虛擬變量（dummy variable）：也稱作指示變量（indicator），取值為0或1的變量，故也被稱作0-1變量。

24、二分變量（dichotomous variable）：即只有兩種可能取值的變量，如性別。

25、參照組（reference group）：被排除出回歸模型的那個虛擬變量所對應(yīng)的類別，亦即所有虛擬變量取值全部為零的類別。

26、交互項(xiàng)（interaction term）:在操作上，交互項(xiàng)就是兩個或多個（一般不多于三個）自變量的乘積。在回歸模型中引入交互項(xiàng)后，參與構(gòu)造交互項(xiàng)的各自變量對因變量的作用依賴于交互項(xiàng)中其他自變量的取值。

27、交互效應(yīng)（interaction effect）：也稱為調(diào)節(jié)效應(yīng)或條件效應(yīng)，指一個自變量對因變量的效應(yīng)依賴于另一個自變量的取值。回歸分析中通常設(shè)定相應(yīng)的交互項(xiàng)來探究某個自變量的條件效應(yīng)。

28、常規(guī)最小二乘法（ordinaryleast squares，OLS）

：線性回歸中求解參數(shù)的常用方法。該方法的基本思路為：根據(jù)從總體中隨機(jī)抽出的一個樣本，在平面直角坐標(biāo)系中找到一條直線，使得觀測值和擬合值之間的距離最短，即兩者之間殘差的平方和最小。

29、線性（linearity）：指自變量與因變量之間的關(guān)系為單調(diào)的一次函數(shù)關(guān)系，因變量取值隨著自變量而變化的速率不隨自變量取值的大小不同而存在差異。另外，線性也指回歸分析中因變量為各回歸系數(shù)的線性組合。

30、無偏性（unbiasedness）：當(dāng)樣本統(tǒng)計(jì)量的期望值等于總體真值時，該統(tǒng)計(jì)量具有無偏性。無偏性是選擇估計(jì)量的首要標(biāo)準(zhǔn)。

31、偏誤（bias）：統(tǒng)計(jì)估計(jì)中的估計(jì)值和真實(shí)值之間的差。

32、忽略變量偏誤（omitted variable bias）：回歸模型設(shè)定中，由于忽略了某些本該納入?yún)s未納入的相關(guān)自變量，而該自變量又與模型中其他自變量存在相關(guān)，導(dǎo)致回歸參數(shù)估計(jì)值存在一定的誤差，則這一誤差被稱作忽略變量偏誤。偏誤的方向取決于被忽略變量對因變量效應(yīng)的方向以及該自變量與已納入模型中自變量之間關(guān)系的方向；而偏誤的大小則直接取決于該忽略自變量對因變量的效應(yīng)的大小以及與模型中其他自變量之間的相關(guān)關(guān)系的強(qiáng)弱，它們之間的相關(guān)性越強(qiáng)，則忽略變量偏誤越大。

33、相關(guān)條件（correlation condition）：判斷回歸模型中存在忽略變量偏誤的條件之一，指的是被忽略的自變量與已納入模型中的關(guān)鍵自變量之間相關(guān)。

34、有關(guān)條件（relevance condition）：判斷回歸模型中存在忽略變量偏誤的條件之一，指的是被忽略的自變量會影響因變量。

35、有效性（efficiency）：對總體參數(shù)進(jìn)行估計(jì)時，在所有可能得到的無偏估計(jì)量中，抽樣分布方差最小的無偏估計(jì)量，就具有有效性，是選擇估計(jì)量的另一個標(biāo)準(zhǔn)。

36、獨(dú)立同分布假定（assumption ofindependent identical distributed errors）：或稱i.i.d.假定，假定一般線性模型中的隨機(jī)誤差項(xiàng)獨(dú)立（彼此獨(dú)立且獨(dú)立于自變量）并且服從零均值等方差的同質(zhì)性分布。

37、一致性（consistency）：是選擇估計(jì)量的第三個標(biāo)準(zhǔn)。一致性表達(dá)的是，估計(jì)量以概率方式收斂于參數(shù)真值。

38、最佳線性無偏估計(jì)（best linear unbiasedestimator）：在滿足所需假定條件的情況下，回歸參數(shù)的常規(guī)最小二乘估計(jì)是所有無偏線性估計(jì)中方差最小的，因此，將其稱作最佳線性無偏估計(jì)。

39、近似多重共線性（approximatemulticollinearity）：當(dāng)數(shù)據(jù)矩陣中一個或幾個自變量列向量可以近似表示成其他自變量列向量的線性組合時，就會出現(xiàn)近似多重共線性問題。此時，模型仍是可以估計(jì)的，只是參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤值過大，從而會造成統(tǒng)計(jì)檢驗(yàn)和推論的不可靠。

40、完全多重共線性（perfectmulticollinearity）：當(dāng)數(shù)據(jù)矩陣中一個或幾個自變量列向量可以表示成其他自變量列向量的線性組合時，自變量矩陣X’X會嚴(yán)格不可逆，就出現(xiàn)了完全多重共線性。當(dāng)發(fā)生完全多重共線性時，直接導(dǎo)致模型參數(shù)無解，即出現(xiàn)模型識別問題。

41、復(fù)相關(guān)系數(shù)（multiple correlation coefficient）：度量復(fù)相關(guān)程度的指標(biāo)。它是一個變量同時與數(shù)個變量之間的相關(guān)程度，可利用單相關(guān)系數(shù)和偏相關(guān)系數(shù)求得。復(fù)相關(guān)系數(shù)越大，表明變量之間的線性相關(guān)程度越高。

42、容許度（tolerance）：回歸分析中反映自變量之間存在多重共線性程度的統(tǒng)計(jì)量之一。對每一個變量，定義容許度為1減去模型中其他自變量之間的復(fù)相關(guān)系數(shù)。顯然，當(dāng)容許度越小，越接近０時，多重共線性就越嚴(yán)重。當(dāng)容許度嚴(yán)格等于０時，也就是復(fù)相關(guān)系數(shù)嚴(yán)格等于１時，就意味著完全多重共線性的存在。

43、方差膨脹因子（variance inflation factor）：回歸分析中反映自變量之間存在多重共線性程度的統(tǒng)計(jì)量之一，它等于容許度的倒數(shù)。對于某個自變量，其方差膨脹因子可定義為容許度的倒數(shù)。

回歸分析統(tǒng)計(jì)量

1、回歸系數(shù)：注意回歸系數(shù)的正負(fù)要符合理論和實(shí)際。截距項(xiàng)的回歸系數(shù)無論是否通過T檢驗(yàn)都沒有實(shí)際的經(jīng)濟(jì)意義。

2、回歸系數(shù)的標(biāo)準(zhǔn)差：標(biāo)準(zhǔn)誤差越大，回歸系數(shù)的估計(jì)值越不可靠，這可以通過T值的計(jì)算公式可知（自查）。

3、T檢驗(yàn)：用于檢驗(yàn)系數(shù)是否為零。通過查表可以得到相應(yīng)的臨界值：如果該值大于臨界值，則該系數(shù)在相應(yīng)的顯著水平上是可靠的；如果該值小于臨界值，則系數(shù)在相應(yīng)顯著水平上是不顯著的。

4、P值：P值為理論T值超越樣本T值的概率，應(yīng)該聯(lián)系顯著性水平α相比，α表示原假設(shè)成立的前提下，理論T值超過樣本T值的概率，當(dāng)P值<α值，說明這種結(jié)果實(shí)際出現(xiàn)的概率的概率比在原假設(shè)成立的前提下這種結(jié)果出現(xiàn)的可能性還小但它偏偏出現(xiàn)了，因此拒絕接受原假設(shè)。

5、可決系數(shù)（R-squared）：表示回歸的擬合程度，就是被解釋變量被所有解釋變量解釋的部分。R方的取值范圍在0到1之間：如果R方等于零，則表示該回歸并不比被解釋變量的簡單平均數(shù)預(yù)測的更好；如果R方等于1，則表示該回歸擬合的最為完美。

6、調(diào)整后的可決系數(shù)：即經(jīng)自由度修正后的可決系數(shù)，從計(jì)算公式可知調(diào)整后的可決系數(shù)小于可決系數(shù)，并且可決系數(shù)可能為負(fù)，此時說明模型極不可靠。隨著解釋變量的增加，R方只會增加而不會減少。為對增加的解釋變量進(jìn)行“懲罰”，對R方進(jìn)行調(diào)整

7、回歸殘差的標(biāo)準(zhǔn)誤：殘差的經(jīng)自由度修正后的標(biāo)準(zhǔn)差，OLS的實(shí)質(zhì)其實(shí)就是使得均方差最小化，而均方差與此的區(qū)別就是沒有經(jīng)過自由度修正。

8、對數(shù)似然估計(jì)函數(shù)值：首先，理解極大似然估計(jì)法。極大似然估計(jì)法雖然沒有OLS運(yùn)用廣泛，但它是一個具有更強(qiáng)理論性質(zhì)的點(diǎn)估計(jì)方法。極大似然估計(jì)的出發(fā)點(diǎn)是已知被觀測現(xiàn)象的分布，但不知道其參數(shù)。極大似然法用得到觀測值（樣本）最高概率（離散分布以概率聚集函數(shù)表示，連續(xù)分布以概率密度函數(shù)表示。因?yàn)橐沟脴颖局兴袠颖军c(diǎn)都出現(xiàn)，假定抽樣是隨機(jī)的則各個樣本點(diǎn)的是獨(dú)立同分布的，所以最后總的概率表現(xiàn)為概率聚集函數(shù)或者概率密度函數(shù)的連乘形式，稱之為似然函數(shù)。要取最大概率，即將似然函數(shù)對未知參數(shù)求導(dǎo)令導(dǎo)數(shù)等于0即可獲得極大似然函數(shù)。一般為簡化函數(shù)的處理過程都會對似然函數(shù)進(jìn)行對數(shù)化處理，這樣最后得到的極大似然函數(shù)就稱之為對數(shù)極大似然函數(shù)）的那些參數(shù)的值來估計(jì)該分布的參數(shù)，從而提供一種用于估計(jì)刻畫一個分布的一組參數(shù)的方法。

其次，理解對數(shù)似然估計(jì)函數(shù)值。對數(shù)似然估計(jì)函數(shù)值一般取負(fù)值，實(shí)際值（不是絕對值）越大越好。第一，基本推理。對于似然函數(shù)，如果是離散分布，最后得到的數(shù)值直接就是概率，取值區(qū)間為0-1，對數(shù)化之后的值就是負(fù)數(shù)了；如果是連續(xù)變量，因?yàn)楦怕拭芏群瘮?shù)的取值區(qū)間并不局限于0-1，所以最后得到的似然函數(shù)值不是概率而只是概率密度函數(shù)值，這樣對數(shù)化之后的正負(fù)就不確定了。第二，Eviews的計(jì)算公式解釋。公式值的大小關(guān)鍵取之于殘差平方和（以及樣本容量），只有當(dāng)殘差平方和與樣本容量的比之很小時，括號內(nèi)的值才可能為負(fù)，從而公式值為正，這時說明參數(shù)擬合效度很高；反之公式值為負(fù)，但其絕對值越小表示殘差平方和越小，因而參數(shù)擬合效度越高。

9、DW檢驗(yàn)值：DW統(tǒng)計(jì)量用于檢驗(yàn)序列的自相關(guān)，公式就是測度殘差序列與殘差的滯后一期序列之間的差異大小，經(jīng)過推導(dǎo)可以得出DW值與兩者相關(guān)系數(shù)的等式關(guān)系，因而很容易判斷。DW值的取值區(qū)間為0-4，當(dāng)DW值很小時（大致<1）表明序列可能存在正自相關(guān)；當(dāng)DW值很大時（大致>3）表明序列可能存在負(fù)自相關(guān)；當(dāng)DW值在2附近時（大致在1.5到2.5之間）表明序列無自相關(guān)；其余的取值區(qū)間表明無法確定序列是否存在自相關(guān)。當(dāng)然，DW具體的臨界值還需要根據(jù)樣本容量和解釋變量的個數(shù)通過查表來確定。

DW值并不是一個很適用的檢驗(yàn)手段，因?yàn)樗嬖诳量痰募僭O(shè)條件：解釋變量為非隨機(jī)的；隨機(jī)擾動項(xiàng)為一階自回歸形式；解釋變量不能包含滯后的被解釋變量；必須有截距項(xiàng)；數(shù)據(jù)無缺失值。當(dāng)然，可以通過DW-h檢驗(yàn)來檢驗(yàn)包含滯后被解釋變量作為解釋變量的序列是否存在自相關(guān)。h統(tǒng)計(jì)量與滯后被解釋變量的回歸系數(shù)的方差呈正相關(guān)關(guān)系，可以消除其影響。

10、被解釋變量的樣本均值：被解釋變量的樣本均值（MeanDependent Var）

11、被解釋變量的樣本標(biāo)準(zhǔn)誤差：被解釋變量的樣本標(biāo)準(zhǔn)誤差（S.D.Dependent Var）

12、赤池信息準(zhǔn)則（AIC）：AIC和SC在時間序列分析過程中的滯后階數(shù)確定過程中非常重要，一般是越小越好。

一般理解：根據(jù)AIC的計(jì)算公式（-2*L/N+2*k/N，L為對數(shù)似然估計(jì)函數(shù)值，k為滯后階數(shù)，N為樣本容量）可知：當(dāng)滯后階數(shù)小時，2*k/N小，但因?yàn)槟Ｐ偷哪M效果會比較差所以L（負(fù)值）會比較小，加上負(fù)號之后則變得較大，因此最后的AIC有可能較大；當(dāng)滯后階數(shù)大時，模型的模擬效果會比較好所以L（負(fù)值）會比較大，加上負(fù)號之后則變得較小，但是2*k/N過大（損失自由度的代價），因此最后的AIC也有可能較大。綜上，AIC較小意味著滯后階數(shù)較為合適。

13、施瓦茨信息準(zhǔn)則（SC）：與AIC沒有任何本質(zhì)區(qū)別，只是加入樣本容量的對數(shù)值以修正損失自由度的代價。

14、F統(tǒng)計(jì)量（F-statistic）：F統(tǒng)計(jì)量考量的是所有解釋變量整體的顯著性，所以F檢驗(yàn)通過并不代表每個解釋變量的t值都通過檢驗(yàn)。當(dāng)然，對于一元線性回歸，T檢驗(yàn)與F檢驗(yàn)是等價的。

15、prob（F-statistic）：F統(tǒng)計(jì)量的P值，一切的P值都是同樣的實(shí)質(zhì)意義。

回歸模型殘差檢驗(yàn)

回歸模型估計(jì)完畢后，通常研究者會對模型估計(jì)的殘差進(jìn)行檢驗(yàn)，通過回歸殘差的性質(zhì)來判斷模型估計(jì)的效果。常用的檢驗(yàn)有：Q檢驗(yàn)和LM檢驗(yàn)用來判斷殘差是否違背無相關(guān)假定、異方差檢驗(yàn)用來判斷殘差是否違背同方差假定、正態(tài)性檢驗(yàn)用于判斷殘差的分布。檢驗(yàn)的一般程序（適用于絕大部分統(tǒng)計(jì)量檢驗(yàn)）是計(jì)算相關(guān)統(tǒng)計(jì)量的原假設(shè)成立的概率P值，如果該概率P值小于某個設(shè)定顯著水平（通常為5%）,則拒絕原假設(shè)，認(rèn)為備擇假設(shè)成立；反之，則不能拒絕原假設(shè)。

殘差自相關(guān)的Q檢驗(yàn)：

檢驗(yàn)?zāi)康模篞統(tǒng)計(jì)量的全稱是Ljung-Box Q，該統(tǒng)計(jì)量一般用于檢驗(yàn)序列是否存在自相關(guān)。檢驗(yàn)假設(shè)：該統(tǒng)計(jì)量的原假設(shè)H0為：殘差序列不存在自相關(guān)；備擇假設(shè)H1為：殘差序列存在自相關(guān)。

殘差自相關(guān)的LM檢驗(yàn)：

LM檢驗(yàn)是Breush-Godfrey Lagrange Multiplier的簡稱，主要用于檢驗(yàn)殘差序列是否存在高階自相關(guān)的重要假設(shè)。該統(tǒng)計(jì)量的計(jì)算首先必須利用OLS估計(jì)出原模型的殘差序列u；然后以u為被解釋變量，以u的1到P階滯后項(xiàng)為解釋變量再次進(jìn)行回歸，同時記錄該回歸的擬合優(yōu)度R方。LM檢驗(yàn)統(tǒng)計(jì)量的原假設(shè)為H0為：殘差序列直到P階不存在自相關(guān)；備擇假設(shè)H1為：殘差序列P階內(nèi)存在自相關(guān)。

殘差的正態(tài)性檢驗(yàn)：

檢驗(yàn)?zāi)康模篐istogram-Normality Test檢驗(yàn)主要是通過計(jì)算JB統(tǒng)計(jì)量實(shí)現(xiàn)的，JB統(tǒng)計(jì)量用來檢驗(yàn)序列觀測值是否服從正態(tài)分布，在零假設(shè)下，JB統(tǒng)計(jì)量服從χ2(2)分布。檢驗(yàn)假設(shè)：該檢驗(yàn)的原假設(shè)H0為：樣本殘差服從正態(tài)分布。備擇假設(shè)H1為：殘差序列不服從正態(tài)分布。

殘差的異方差檢驗(yàn)：

檢驗(yàn)?zāi)康模河捎谧钚《朔椒ㄊ墙⒃跉埐钔讲罴僭O(shè)基礎(chǔ)上的，一旦出現(xiàn)異方差就說明OLS方法就不可靠了，需要利用加權(quán)最小二乘方法進(jìn)行糾正。異方差檢驗(yàn)是利用輔助回歸的方法進(jìn)行的，該統(tǒng)計(jì)量服從卡方分布。檢驗(yàn)假設(shè)：懷特異方差檢驗(yàn)的原假設(shè)H0為：殘差序列不存在異方差。備擇假設(shè)H1為：殘差序列存在異方差。

回歸分析不可不知的關(guān)鍵詞和統(tǒng)計(jì)量

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： geoallan > 《數(shù)據(jù)分析》

舉報/認(rèn)領(lǐng)