作者:陸銘 本文由計量經(jīng)濟學服務中心綜合整理,轉載請注明來源。 此短文適用于對于面板數(shù)據(jù)和工具變量已經(jīng)有初步了解的人士,閱讀過中級教材的相關內容。本文僅供參考,請原諒中英文混用。中國科學院的徐志剛博士一一指明了此文存在的錯誤,并且對原文中存在的不足作了大量的補充,特表示感謝。 面板數(shù)據(jù)作為計量經(jīng)濟學中的一個小分支,多數(shù)本科學校沒有學過,此課程主要面向研究生及以上,但是面板數(shù)據(jù)的實證分析在核心刊物上屢屢出現(xiàn)(例子:前天小編去市圖書館,看某經(jīng)濟類核心期刊,一共有10篇文章,其中3篇用的是面板數(shù)據(jù),但不是簡單的面板數(shù)據(jù),主要面板數(shù)據(jù)和別的模型的結合)。 一、面板數(shù)據(jù)哪里好 一般而言,面板數(shù)據(jù)模型的誤差項由兩部分組成,一部分是與個體觀察單位有關的,它概括了所有影響被解釋變量,但不隨時間變化的因素,因此,面板數(shù)據(jù)模型也常常被成為非觀測效應模型;另外一部分概括了因截面因時間而變化的不可觀測因素,通常被成為特異性誤差或特異擾動項(事實上這第二部分誤差還可分成兩部分,一部分是不因截面變化但隨時間變化的非觀測因素對應的誤差項Vt,這一部分一般大家的處理辦法是通過在模型中引入時間虛擬變量來加以剝離和控制,另一部分才是因截面因時間而變化的不可觀測因素。不過一般計量經(jīng)濟學的面板數(shù)據(jù)分析中都主要討論兩部分,在更高級一點的統(tǒng)計學或計量經(jīng)濟學中會討論誤差分量模型,它一般討論三部分誤差)。 非觀測效應模型一般根據(jù)對時不變非觀測效應的不同假設可分為固定效應模型和隨機效應模型。傳統(tǒng)上,大家都習慣這樣分類:如果把非觀測效應看做是各個截面或個體特有的可估計參數(shù),并且不隨時間而變化,則模型為固定效應模型;如果把非觀測效應看作隨機變量,并且符合一個特定的分布,則模型為隨機效應模型。 不過,上述定義不是十分嚴謹,而且一個非常容易讓人產(chǎn)生誤解的地方是似乎固定效應模型中的非觀測效應是隨時間不變的,是固定的,而隨機效應模型中的非觀測效應則不是固定的,而是隨時間變化的。 一個邏輯上比較一致和嚴謹,并且越來越為大家所接受的假設是(參見Wooldridge的教材和Mundlak1978年的論文),不論固定效應還是隨機效應都是隨機的,都是概括了那些沒有觀測到的,不隨時間而變化的,但影響被解釋變量的因素(尤其當截面?zhèn)€體比較大的時候,這種假設是比較合理的)。非觀測效應究竟應假設為固定效應還是隨機效應,關鍵看這部分不隨時間變化的非觀測效應對應的因素是否與模型中控制的觀測到的解釋變量相關,如果這個效應與可觀測的解釋變量不相關,則這個效應成為隨機效應。這也正是HAUSMAN設定檢驗所需要檢驗的假說。 非觀測效應模型因為對非觀測效應假設的不同,因為使用面板數(shù)據(jù)信息的不同,可以用不同方法來估計并且得到不同的估計量,一般有四個: (1)組內估計量(WITHIN ESTIMATOR)(FE或FD: FirstDifference) (2)組間估計量(BETWEEN ESTIMATOR) (3)混合OLS估計量(POOLED OLSESTIMATOR) (4)隨機效應估計量(RE,GLS或FGLS估計量) 這四個估計量因為假設和使用信息的不同而不同,各有優(yōu)劣勢,相互之間也有密切關系。3和4分別是1和2的加權平均;4在特定的假設分別可以轉化成1和3;如果HAUSMAN檢驗表明4和1沒有區(qū)別的時候意味著1和2沒有區(qū)別。 RE假設未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關的,二是完全隨機的,RE在做估計的時候,是用這兩個部分的方差計算出一個指數(shù)λ,來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去λ乘以y或x的均值,然后用GLS估計。極端地,當λ為0時,非觀測效應是一個常數(shù),并且所有個體都一樣,就等價于Pooled OLS,當λ為1時,說明完全隨機的部分可以忽略,所有未觀察因素都是與單位有關的,于是就等價于FE。但FE不需要假定未觀察因素與解釋變量是正交的,在做FE時,固定效應都被差分掉了,所以也可得到consistent的結果。 PANEL數(shù)據(jù)的好處之一是,如果未觀察到的是固定效應,那么在做DEMEAN時,未觀察因素就被差分掉了。這樣就可以減少由于未觀察的因素可能與解釋變量相關而導致的內生性問題。 二、那么PANEL的FE或者RE分析九避免了內生性問題嗎? 只能說好一些,如果內生的問題只是由于與單位有關的并不隨時間變化的遺漏變量與解釋變量有關造成的,這時,數(shù)據(jù)的差分就解決了問題,但是,別忘記還有一部分誤差,如果這部分誤差里包含的因素也可能影響解釋變量,那么,差分只能解決前面講的問題,由隨機項里包括的因素與解釋變量之間的關系導致的內生性問題還可能存在。 三、如何處理內生性問題? 找IV解決。類似于在OLS基礎上找IV,但對PANEL的工具應該具有PANEL結構,除非你基礎的估計沒有使用PANEL的方法,比如說對數(shù)據(jù)用了pooled OLS方法,但能夠用pooled OLS方法分析PANEL DATA的條件是很嚴格的。 四、工具變量選擇問題 1, IV應該盡量是外生的(如歷史/自然/氣候/地理之類),它應該在理論上對被解釋變量(以下稱Y)沒有直接影響,但應該通過影響被工具的變量(以下稱X)而間接影響被解釋變量Y。 2, 如果上述理論邏輯通的話,將內生變量X作為解釋變量,IV和其他變量(X2)作為解釋變量,看IV是否顯著,它應該顯著。如果選了多個IV,就用F TEST看其是否都不顯著。同時,如果在多個IV中,有一個是確定為外生的,那么,可以用Sargan test ofoveridentifying restrictions來檢驗其他的IV是不是確實是外生的。 3, 如果上述都沒有問題,做一下IV回歸。完成后,用HAUSMAN檢驗,這個檢驗的原假說是IV回歸與原回歸(不用IV的回歸)的變量的系數(shù)并沒有顯著的不同??匆幌翽值,如果P小于比如說0.1,或者0.05,那么,說明IV回歸與原來的回歸顯著不同,原來的方程的確有內生性問題導致的估計偏誤。反之,如果P很高,超過0.1,或0.05,那說明IV回歸與原來的回歸沒有顯著不同,無法拒絕原來的回歸沒有顯著的內生問題導致的估計偏誤的原假設。 4, 如果選擇的IV本身就影響Y,那它就不能被作為IV。例如,Y在左邊,右邊是X(被工具的),X2,IV。當IV被放在方程右邊時,它最好是不顯著影響Y的。在Acemoglu(2001)里,他就檢驗了他們的IV是否直接影響被解釋變量,結果說明不直接影響,于是這個IV是好的。當然,一個好的IV在前面的回歸中也可能是顯著的(不過一般如果理論和邏輯上IV是通過被工具的內生解釋變量間接影響被解釋變量的話,一般來說應該是被工具的內生解釋變量使得IV不顯著,或者由于兩者相關性很高,兩者都不顯著),但判斷的標準還只是t值。這個變量顯著完全有可能是因為它影響了其他顯著的變量(比如被工具的變量),如果是這樣,當包括了IV在原方程中以后,其他變量(特別需要注意的是被工具的變量X)的系數(shù)可能發(fā)生明顯變化。 五、關于HAUSMAN TEST檢驗的若干問題 具體參見Statacorporation, 2001, STATA 7 Reference H-P, Stata Press 1,含義:“The null hypothesis is that the efficient estimator is a consistentand efficient estimator of the true parameters. If it is, there should be nosystematic difference between the coefficients of the efficient estimator and acomparison estimator that is known to be consistent for the true parameters. Ifthe two models display a systematic difference in the estimated coefficients,then we have reason to doubt the assumptions on which the efficient estimatoris based.”參見手冊Statacorporation, 2001, STATA 7 Reference H-P, Stata Press。該方法是Hausman (1978)的程序化。所以,Hausman Test的命令(hausman)假設使用者知道需要比較的兩個方程中哪一個是“無論原假說成立與否都是consistent”,哪一個“在原假說下不僅efficient而且consistent,但若原假說不成立,則inconsistent”,[1]然后,在STATA 8下,步驟是: (1) obtain an estimator that is consistent whether or not the hypothesisis true; (2) store the estimation results under a name-consistent using estimatesstore; (3) obtain an estimator that is efficient (and consistent) under thehypothesis that you are testing, but inconsistent otherwise; (4) store the estimation results under a name-efficient using estimatesstore; (5) use hausman to perform the test hausman name-consistentname-efficient [, options] 舉例: (1)在關于是FE還是RE的檢驗中,原假說是非觀測效應與解釋變量不相關,備擇假說是兩者相關。FE是無論原假說成立與否都是consistent,而RE在原假說下是consistent,并且Asymptotically efficient(樣本越大越有效),但如果原假說被拒絕,則RE不是consistent的 (Hausman, 1978)。 所以做法應該是(STATA8的命令): sort code year (排序) tis year (時間變量是year) iis code (表示單位的是code) xtreg y x x2, fe(假設其中x是需要被工具的變量) est store fixed (在STATA8里命令有變化,不再是HAUSMAN,SAVE了,這里的fixed實際上就是個變量名,用什么都行) xtreg y x x2, re hausman fixed (2)比較OLS(或FE)和IV(或IVFE) 先做IV,因為,它無論如何都是consistent的,但OLS只有在原假設成立,即OLS結果與IV結果相同,內生性問題沒有時,才是consistent的。所以,應該先做IV。 在老版本的STATA里,如果不加特殊說明,STATA就會默認為先寫的回歸命令得到的是總是一致的估計結果,后寫的得到的是備擇假設下不一致的估計結果?,F(xiàn)在HAUSMAN命令規(guī)范了,而且擴展了。先跑哪個不重要,關鍵在于寫最后HAUSMAN命令時候的順序,而且如果最近跑的一個沒有用EST存名字的話,要用“.”代替。 2.注意: (1)對以上檢驗的理解的另一種方式是,我們先做一個假設條件要求更松的估計,然后再做一個假設條件更嚴格的。相比之下,IV(IVFE)比OLS(FE)要求更松。容易搞混的是FE比RE假設條件更松。RE假設未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關的,二是完全隨機的,RE在做估計的時候,是用這兩個部分的方差計算出一個指數(shù)λ,來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去λ乘以y或x的均值,然后用GLS估計。當λ為0時,就等價于pooled OLS,當λ為1時,說明完全隨機的部分可以忽略,所有未觀察因素都是與單位有關的,于是就等價于FE。但FE不需要假定未觀察因素與解釋變量是正交的,在做FE時,固定效應都被差分掉了,所以也可得到consistent的結果。當我們先做假設更嚴格的估計時,HT與一般檢驗一樣,檢驗值大,P小,則原假說拒絕,應該接受假設更松的。在FE與RE的比較里,卡方大,接受FE。在OLS(FE)與IV(或IVFE)的比較里,當卡方值大時,P小時,拒絕原假說,IV結果和OLS(或FE)有不同,于是接受IV結果。 (2)從以上討論可以看出,我們需要事先知道HT時兩個方程的順序和性質。在STATA7以下,當使用hausman命令時,它默認的順利(缺省參數(shù)more)就是上面的順序。如果你做的順序相反,就應該加上參數(shù),命令為hausman,less,如果沒有寫less,那么,STATA是不知道誰更efficient的,這時,你本來應該得到一個正的結果,就完全可能因為順序錯了,又忘記了參數(shù)less而得到一個相反的負數(shù)結果。 在STATA8里命令變化,可以變順序,但要使用者注意正確使用參數(shù): The order of computing the two estimators may be reversed. You have tobe careful though to specify to hausman the models in the order 'alwaysconsistent' first and 'efficient under H0' second. It is possible to skip storingthe second model and refer to the last estimation results by a period (.). (3)在其他可比較的情況下,順序并不重要(如果沒有誰更有效的差別) hausman may be used in any context. The order in which you specify the regressors in each model does not matter, but it is your responsibility to assure thatthe estimators and models are comparable, and satisfy the theoretical conditions (see(1) and (3)above). (4)當HT出現(xiàn)負值時 先看一下是不是方程順序錯了。如果沒有錯,那么在小樣本數(shù)據(jù)下也并不是不可能得到負值。當HAUSMAN檢驗的X2值是負的時候,意思是強烈地表明兩個被比較的回歸結果系數(shù)相同(或者說無顯著差異)的原假說不能被拒絕,尤其是小樣本中很可能出現(xiàn)。這是STATA7的使用手冊上的一個例子說的。但在STATA8里,又說,出現(xiàn)負值這種情況時,If this is the case, the Hausman test is undefined. Unfortunately, this is not a rare event. Statasupports a generalized Hausman test that overcomes both of these problems. Seesuest for details.可以通過help suest了解。 3.STATA命令 (1)比較FE和RE sort code year (排序) tis year (時間變量是year) iis code (表示單位的是code) xtreg y x x2, fe(假設其中x是需要被工具的變量) est store fixed (在STATA8里命令有變化,不再是HAUSMAN,SAVE了,這里的fixed實際上就是個變量名,用什么都行) xtreg y x x2, re hausman fixed (2)比較IVFE和IVRE xtivreg y (x=iv) x2, fe est store f1 xtivreg y (x=iv) x2, re hausman f1 一般來說用不著這個比較,因為在這之前,你已經(jīng)知道FE和RE誰好了,就將好的結果與它的IV結果比就行了。 (3)比較IVFE和FE xtivreg y (x=iv) x2, fe est store f2 xtreg y x x2, fe hausman f2 再重復一遍,如果結果是P小,卡方大才說明IV回歸是必要的,原來是有內生問題。 六、舉例 Acemoglu等人(2001)的文章是非常有代表性的使用工具變量的論文。他們試圖驗證制度對人均收入有影響,顯然,直接做回歸的話,制度就是內生的,因為好的制度可能在人均收入高的地方產(chǎn)生。他們找的工具變量是殖民地時代一個國家的死亡率,死亡率高歐洲人就不會定居下來,于是就會在當時建議掠奪性的制度,反之就會建立好的制度,而那時的制度對現(xiàn)在仍然有影響。 特別值得注意的是論文的6.3部分對于工具變量的有效性的檢驗。首先,他們用其他可行的變量作為替代來反復做IV回歸,發(fā)現(xiàn)得到的結果與用死亡率作IV得到的結果基本相同。(這當然是不錯的結果,但是,我認為這不是必要的,因為你并不一定能夠找到其他的IV。)然后,他們將死亡率本身作為外生變量放在原回歸里,發(fā)現(xiàn)它不顯著地影響被解釋變量,這說明它并不直接影響被解釋變量。第三,他們把只用死亡率的IV結果和同時用死亡率和其他IV的結果進行卡方檢驗,發(fā)現(xiàn)它們沒有顯著不同,再次說明死亡率沒有直接影響,也不是通過影響制度以外的其他變量影響被解釋變量的。我認為這一步也不是必要的,因為如果你沒有其他IV,這一步也就沒有辦法做了。 七、參考文獻 Acemoglu, Daron, Simon Johnson and James A.Robinson (2001) “The Colonial Origins of Comparative Development: An EmpiricalInvestigation,” American Economic Review, December, Volume 91, Number 5,1369-1401. Stata corporation, 2001, STATA 7Reference H-P, Stata Press. Hausman, Jerry A. and William E. Taylor, 1981, “PanelData and Unobservable Individual Effects,” Econometrica, Vol. 49, No. 6,1377-1398. Hausman, Jerry A., 1978, “Specification Tests inEconometrics,” Econometrica, Vol. 46, No. 6, 1251-1271. |
|
來自: lyricLee7v7c1q > 《計量》