重磅！Stata 16 正式發(fā)布：Stata 在大數(shù)據(jù)時代的華麗轉(zhuǎn)身

萌糍粑 2019-07-05

展開全文

2019年6月26日，Stata 公司正式宣布 Stata 16上線啦！或許計量小伙伴們還沒把 Stata 15捂熱，而 Stata 16已經(jīng)悄然襲來。大數(shù)據(jù)時代，知識加速迭代，Stata 公司加快了步伐，我們也要跟上啊……

全新的 Stata 16 給我們帶來了怎樣的驚喜呢？

總結(jié)起來，Stata 16 主要有以下兩方面的重大升級。首先，Stata 在大數(shù)據(jù)時代的華麗轉(zhuǎn)身，與大數(shù)據(jù)相關(guān)的功能突飛猛進。其次，Stata 繼續(xù)深耕計量經(jīng)濟學(xué)的經(jīng)典與前沿方法。讓我們一起來看看吧。

Stata 16 在大數(shù)據(jù)時代的華麗轉(zhuǎn)身

眾所周知，大數(shù)據(jù)（big data）的特點可用 4V 來概括，即數(shù)據(jù)規(guī)模龐大（Volume）、數(shù)據(jù)更新頻繁（Velocity）、數(shù)據(jù)類型多樣（Variety）和數(shù)據(jù)價值巨大（Value）。Stata 16的以下新模塊與功能更新均與此 4V有關(guān)。

Lasso

作為大數(shù)據(jù)Volume的一種重要形式，“高維數(shù)據(jù)”（high-dimensional data）在經(jīng)管與社科中也越來越多地出現(xiàn)，即解釋變量很多，甚至超過樣本容量的情形。Lasso (Least Absolute Shrinkage and Selection Operator，也稱“套索估計量”)及其衍生的系列估計量正是進行高維回歸的主要工具。

為此，Stata 16及時地推出了Lasso系列的官方命令，包括lasso, elasticnet（彈性網(wǎng)）與 sqrtlasso（平方根Lasso），可估計線性回歸模型（比如 lasso linear）、二值選擇模型（比如，lasso logit 與 lasso probit）、計數(shù)模型（比如，lasso poisson）等。

Lasso 系列的估計量通常使用懲罰回歸（penalized regressions）來處理高維數(shù)據(jù)，以避免“過擬合”（overfit）與“方差爆炸”（variance explosion），并進行“變量選擇”（variable selection）。這些懲罰回歸對于回歸系數(shù)過大的懲罰力度則一般由調(diào)節(jié)參數(shù)（tuning parameter）或 L1范數(shù)（L1 norm）來控制。

使用 Stata 16的Lasso命令，可以很方便地計算回歸系數(shù)的整個路徑（coefficient paths），作為調(diào)節(jié)參數(shù) 或 L1范數(shù)的函數(shù)；并根據(jù)“交叉驗證”（cross-validation）選擇最優(yōu)的調(diào)節(jié)參數(shù) ，參見下圖。

不僅如此，Stata 16 官方命令還提供了 Lasso 系列相應(yīng)的統(tǒng)計推斷方法，比如計算標準誤、置信區(qū)間，或進行假設(shè)檢驗。這些統(tǒng)計推斷方法包括“double-selection lasso”（比如，dsregress，dslogit，dspoisson），“partialling-out lasso”（比如，poregress，pologit，popoisson），以及“cross-fit partialing out lasso”（比如，xporegress，xpologit，xpopoisson）。

Multiple Datasets in Memory

在大數(shù)據(jù)時代，學(xué)界與業(yè)界越來越需要在內(nèi)存中同時處理多個數(shù)據(jù)集。在此前的 Stata 版本中，Stata 內(nèi)存只能有一個數(shù)據(jù)集。這種設(shè)置雖簡便易行，在小數(shù)據(jù)時代也基本夠用，但在大數(shù)據(jù)時代，由于數(shù)據(jù)的來源 Variety 多樣，已成為應(yīng)用的瓶頸。

因此，Stata 16 適時地推出在內(nèi)存內(nèi)同時調(diào)用多達100個數(shù)據(jù)集的重要功能。比如，你可以很方便地根據(jù)內(nèi)存中多個數(shù)據(jù)集的信息來定義一個新的變量。哇！

Python Integration

隨著機器學(xué)習(xí)與數(shù)據(jù)科學(xué)的興起，Python 無疑是最炙手可熱的編程語言之一。為此，Stata 16 專門提供了一個與 Python 的接口，讓用戶可以在熟悉的 Stata 界面下調(diào)用 Python，并在 Stata 中顯示運行結(jié)果。

比如，此前的 Stata 版本無法畫三維立體圖，而在Stata 16中，通過調(diào)用Python 的 Matplotlib 則不難實現(xiàn)（參見下圖）。

這也意味著，你可以在 Stata 中，通過 Python 接口，使用 Python 所擅長的各種機器學(xué)習(xí)方法，包括隨機森林、梯度提升、支持向量機、神經(jīng)網(wǎng)絡(luò)等！

Do-file Editor -- Autocompletion and More Syntax Highlighting

在大數(shù)據(jù)時代，編程越來越成為一種基本技能，而不再是“碼農(nóng)”專屬。在 Stata 中編程，無疑需要一個很好的 do 文件編輯器（Do-file Editor）。

讓人驚喜的是，Stata 16 的 do 文件編輯器的性能也有了大幅提升，包括 Stata 命令的自動填寫完成（autocompletion），以及更多語法高亮顯示（syntax highlighting），這無疑將為 Stata 編程提供很大便利。

Meta-Analysis

隨著大數(shù)據(jù)時代的數(shù)據(jù)來源 Variety 越來越多，使得我們時常需要將不同來源的樣本數(shù)據(jù)之研究結(jié)果整合在一起，即所謂“元分析”（Meta-Analysis）。為此，Stata 16 提供了全新的 Meta-Analysis 模塊，使得元分析變得十分方便、快捷而高效，并輔之以強大的可視化功能（參見下圖）。

Reporting

由于大數(shù)據(jù)的更新頻繁特點（Velocity），使得數(shù)據(jù)分析經(jīng)常需要重復(fù)進行，使用更新的數(shù)據(jù)。此時，研究報告的可重復(fù)性（Reproducibility）就變得日益重要，即保證任何人只要運行你的 Stata 程序即可得到完全一樣的研究報告。這些研究報告的格式可以是 Word，PDF，Excel 或 HTML（參見下圖）。

而且，當你的數(shù)據(jù)集更新之后，再運行一遍你的 Stata，則你的研究報告也會相應(yīng)地自動更新！Stata 16 新引入或完善的相關(guān)命令包括 dyndoc，markdown，putdocx，html2docx，doc2pdf。

小貼士：還在發(fā)愁如何將 Word 文件轉(zhuǎn)化為 PDF 格式？Stata 16 的 doc2pdf 命令就能幫你搞定啦！

Import Data from SAS and SPSS

如果你有數(shù)據(jù)在 SAS 或 SPSS 中，想要導(dǎo)入 Stata 以利用其強大的統(tǒng)計與計量功能，Stata 16 貼心地提供了專門的新命令 import sas 與 import spss，使得這種數(shù)據(jù)遷移變得十分方便與快捷，參見下圖。

Stata 16 深耕計量經(jīng)濟學(xué)的經(jīng)典與前沿方法

Nonparametric Series Regression

序列回歸（series regression）是非參數(shù)回歸（nonparametric regression）的一種重要方法。它使用多項式（polynomials）、B-樣條（B-splines）或樣條（splines）所構(gòu)成的序列來近似逼近任意的未知回歸函數(shù)。

Stata 16 全新推出的命令 npregress series 填補了 Stata 在非參數(shù)回歸領(lǐng)域的又一空白，使得非參數(shù)序列回歸變得方便而高效；比如，計算平均邊際效應(yīng)（average marginal effects）。命令 npregress series 甚至可以估計“半?yún)?shù)模型”（semi-parametric model），即同時包含參數(shù)與非參數(shù)部分的模型。

Choice Models

對于微觀計量中常用的“離散選擇模型”（discrete choice models），Stata 16 專門設(shè)立了一個“選擇模型”（Choice Models）的模塊。在估計選擇模型之前，你先通過命令 cmset 來宣布你的數(shù)據(jù)為選擇模型，然后可用命令 cmsummarize，cmchoiceset，cmtab 或 cmsample 來考察你的選擇模型。

估計選擇模型的相應(yīng) Stata 命令也統(tǒng)一帶上了 cm 的前綴，比如

cmclogit：conditional logit model

cmmixlogit：mixed logit model

cmxtmixlogit：panel-data mixed logitmodel

cmmprobit：multinomial probitmodel

cmroprobit：rank-ordered probitmodel

cmrologit：rank-ordered logitmodel

其中，cmxtmixlogit 是 Stata 16的全新命令，用于估計面板數(shù)據(jù)的混合邏輯模型（mixed logit models for panel data）。

Panel-data ERMs

Stata 15 推出了 ERM（Extended Regression Models）模塊，可以處理同時出現(xiàn)“內(nèi)生性”（endogeneity）、“樣本選擇”（sample selection）與“處理效應(yīng)”（treatment）這三種并發(fā)癥的情形，或三者的任意組合，非常靈活實用。Stata 16 則將ERMs 推廣到了面板數(shù)據(jù)中，新引入了xtegress，xteintreg，xteprobit，xteoprobit 等強大命令。

New in Bayesian Analysis

Stata 16 的“貝葉斯分析”（Bayesian Analysis）模塊也有了不少新功能。比如，可使用多個馬爾科夫鏈（multiple chains）來檢驗現(xiàn)代貝葉斯分析所依賴的馬爾科夫鏈蒙特卡洛（Markov China Monte Carlo）是否收斂；以及使用后驗分布（posterior distribution）進行“貝葉斯預(yù)測”（Bayesian predictions），參見下圖。

Nonlinear DSGE Models

繼 Stata 15 推出估計線性 DSGE 模型的命令 dsge 之后，Stata 16 更上一層樓，可以通過命令 dsgenl 來估計非線性 DSGE 模型。

使用命令dsgenl，無須再手工將 DSGE 模型線性化，直接輸入非線性的 DSGE 模型，Stata 即會自動地對它進行線性化與估計。這無疑是宏觀經(jīng)濟學(xué)者的福音??！

xtheckman

Stata 16新推出的命令 xtheckman，使得 Heckman 的樣本選擇模型（sample model）也可以在面板數(shù)據(jù)中估計啦！

總之，Stata 16 是一次很令人激動的重大升級。Stata 16 的及時推出，意味著 Stata 在大數(shù)據(jù)時代的華麗轉(zhuǎn)身，而同時又繼續(xù)深耕計量經(jīng)濟學(xué)的經(jīng)典與前沿方法。在可預(yù)見的將來，Stata 依然會是經(jīng)濟學(xué)家最常用的計量與統(tǒng)計軟件。