【原】前沿: 大數(shù)據(jù)對經(jīng)濟(jì)金融研究的致命影響, 那又該如何推動這些領(lǐng)域的前沿研究呢？

計量經(jīng)濟(jì)圈 2021-05-15

展開全文

前些日，推薦了①重磅! 漢森教授又修訂了風(fēng)靡世界的“計量經(jīng)濟(jì)學(xué)”教材, 為博士生們增加了DID, RDD, 機(jī)器學(xué)習(xí)等全新內(nèi)容！②重磅! 漢森教授首次為學(xué)者強(qiáng)烈推薦的對應(yīng)不同層級的世界級計量經(jīng)濟(jì)學(xué)教材！，受到青年學(xué)者廣泛關(guān)注。這顯示了國內(nèi)青年學(xué)者對前言領(lǐng)域的探索熱情，總希望能利用最新、最有效的研究方法去做之前未能開展的研究。鑒于此，今天，再分享一下大數(shù)據(jù)對經(jīng)濟(jì)金融領(lǐng)域的革命性影響，以及如何使用大數(shù)據(jù)的這些特征去做經(jīng)濟(jì)金融領(lǐng)域的前沿性研究。

正文

關(guān)于下方文字內(nèi)容，作者：陽宇川，華東師范大學(xué)金融學(xué)，通信郵箱：ycyang227@sina.cn

Itay Goldstein, Chester S Spatt, Mao Ye, Big Data in Finance, The Review of Financial Studies, 2021;, hhab038, https:///10.1093/rfs/hhab038
Big data is revolutionizing the finance industry and has the potential to significantly shape future research in finance. This special issue contains papers following the 2019 NBER-RFS Conference on Big Data. In this introduction to the special issue, we define the “big data” phenomenon as a combination of three features: large size, high dimension, and complex structure. Using the papers in the special issue, we discuss how new research builds on these features to push the frontier on fundamental questions across areas in finance—including corporate finance, market microstructure, and asset pricing. Finally, we offer some thoughts for future research directions.

摘要

大數(shù)據(jù)已經(jīng)在金融行業(yè)中掀起一場革命，同時也展現(xiàn)出重塑未來金融研究的潛能。這一?？珍浟?019年RFS-NBER大數(shù)據(jù)會議的相關(guān)文章。在本文第二部分，我們定義了“大數(shù)據(jù)”的三個特征：大量、高維和復(fù)雜結(jié)構(gòu)。通過回顧?？械奈恼?，我們討論了建立在這些特征上的新興研究在公司金融、微觀市場結(jié)構(gòu)、資產(chǎn)定價等不同金融領(lǐng)域的表現(xiàn)，以及對一些金融基本問題的推動和再發(fā)現(xiàn)。最后，我們提供了一些關(guān)于未來金融研究方向的思考。

引言：大數(shù)據(jù)革命

數(shù)字時代創(chuàng)造了海量的數(shù)據(jù)，并仍將以指數(shù)化方式增長。根據(jù)國際數(shù)據(jù)公司IDC的估計，當(dāng)今世界每兩天產(chǎn)生的數(shù)據(jù)比2003年以前人類歷史中產(chǎn)生的所有數(shù)據(jù)總和都要多。這場新興革命正在重塑金融行業(yè)，正如《華爾街日報》所言：“華爾街的交易大廳最終將由一群卡內(nèi)基梅隆大學(xué)的博士組成，而不是沃頓商學(xué)院的MBA們?！?/span>

在學(xué)術(shù)界，大數(shù)據(jù)也開始逐步顯露其影響力，但仍伴隨著許多問題。傳統(tǒng)的大數(shù)據(jù)3V定義（大量volume、高速velocity、多樣variety）與工程學(xué)和計算機(jī)科學(xué)有著緊密聯(lián)系，卻無法完全反映其給金融研究與實踐帶來的機(jī)遇和挑戰(zhàn)。金融中的“大數(shù)據(jù)”究竟意味著什么？金融經(jīng)濟(jì)學(xué)家們將如何從中受益？大數(shù)據(jù)是開辟了新的研究命題，還是讓我們以更新穎和更具啟發(fā)性的方式來回答傳統(tǒng)問題？這到底是一次范式的轉(zhuǎn)變，還是僅僅只是漸進(jìn)式變化的延續(xù)？畢竟，大體量數(shù)據(jù)集一直以來都是金融研究的特色。

本特刊首先定義了金融研究視角下大數(shù)據(jù)的三個特征；接著回顧六篇收錄的文獻(xiàn)，以說明大數(shù)據(jù)的實際運用；最后，討論了未來研究中大數(shù)據(jù)的應(yīng)用導(dǎo)向。

金融中的大數(shù)據(jù)

金融中對于大數(shù)據(jù)的定義應(yīng)區(qū)別于統(tǒng)計學(xué)或工程學(xué)。這些學(xué)科通常關(guān)注于收集、處理和展示數(shù)據(jù)的過程，而金融經(jīng)濟(jì)學(xué)家則更希望將其應(yīng)用于解決經(jīng)濟(jì)問題。由于大數(shù)據(jù)仍處于發(fā)展初期，我們很難給出完善、精確的定義，但它可以作為未來迭代和修正的基礎(chǔ)。特別地，我們將大數(shù)據(jù)分解為以下三個屬性：

l 大量（Large size）。這可以從絕對和相對意義兩個方面理解。絕對意義上，一個自然的例子是微觀市場交易數(shù)據(jù)。大數(shù)據(jù)也可以從相對的“小數(shù)據(jù)”來理解：現(xiàn)有的許多數(shù)據(jù)集之所以是“小”的，是因為它們是更大數(shù)據(jù)集的子集。通過分類子樣本或在時間序列數(shù)據(jù)中截取區(qū)間，大數(shù)據(jù)集被分割成數(shù)個小數(shù)據(jù)集。如果使用更大量的數(shù)據(jù)可以克服小數(shù)據(jù)面臨的選擇偏誤或發(fā)現(xiàn)重要的經(jīng)濟(jì)活動，那么大數(shù)據(jù)就是合理且必要的。

l 高維（High dimension）。大數(shù)據(jù)通常包含許多變量，有的甚至比觀測值更多（即“長表”）。機(jī)器學(xué)習(xí)作為大數(shù)據(jù)研究的標(biāo)志性產(chǎn)物，在處理多變量問題時有著較好的表現(xiàn)，因此越來越廣泛地用于金融研究中。如果研究滿足（但不限于）下列三個條件，那么機(jī)器學(xué)習(xí)技術(shù)就是有價值的：①真實經(jīng)濟(jì)問題涉及許多變量；②變量的影響是高度非線性的，或存在變量之間的交互項；③經(jīng)濟(jì)預(yù)測比統(tǒng)計推斷更重要。實際的應(yīng)用場景包括算法交易或智能投顧等機(jī)器主導(dǎo)的決策問題。

l 復(fù)雜結(jié)構(gòu)（Complex structure）。有時數(shù)據(jù)不會以傳統(tǒng)的行-列格式出現(xiàn)。非結(jié)構(gòu)化數(shù)據(jù)如文本、圖像、視頻、音頻和語音等，可以刻畫結(jié)構(gòu)化數(shù)據(jù)無法描述的經(jīng)濟(jì)活動及現(xiàn)象（比如情緒）。非結(jié)構(gòu)化數(shù)據(jù)一般是高維的，因此分析數(shù)據(jù)的第一步通常是借助深度學(xué)習(xí)和計算機(jī)科學(xué)來查看數(shù)據(jù)特征。比如，研究者可以利用自然語言處理（NLP）獲取文本中的語義學(xué)信息，利用語音識別（speech recognition）確定聲音和音頻中的音調(diào)，還可以通過計算機(jī)視覺（CV）提取圖像和視頻蘊含的地理信息等。

總的來說，隨著大數(shù)據(jù)集可得性的增加，處理高維數(shù)據(jù)方法論的發(fā)展，以及非常規(guī)數(shù)據(jù)處理方法的出現(xiàn)，都導(dǎo)致了大數(shù)據(jù)在金融研究中地位的日益突出。接下來通過回顧六篇最新相關(guān)文獻(xiàn)，本?？懻摿舜髷?shù)據(jù)在各個金融領(lǐng)域內(nèi)的具體運用。

表1             ?？珍浳墨I(xiàn)一覽文獻(xiàn)作

文獻(xiàn)作者	研究領(lǐng)域	主要內(nèi)容
Erel et al.	公司金融	研究董事個人特征與其在年度選舉中表現(xiàn)的關(guān)系，發(fā)現(xiàn)機(jī)器學(xué)習(xí)比OLS更能準(zhǔn)確預(yù)測董事的受歡迎程度。
Li et al.	提供一個最新的機(jī)器學(xué)習(xí)方法--詞向量模型(word2vec)以量化企業(yè)文化。
Easley et al.	市場微觀結(jié)構(gòu)	使用隨機(jī)森林分類算法探究在算法主導(dǎo)的交易市場下，傳統(tǒng)市場微觀結(jié)構(gòu)指標(biāo)是否仍能解釋和預(yù)測市場變化。
Anand et al.	采用了一個超大規(guī)模的數(shù)據(jù)集，研究證券經(jīng)紀(jì)商通過另類交易系統(tǒng)處理訂單是否會導(dǎo)致更嚴(yán)重的代理問題。
Benamar, Foucault, and Vega	借助數(shù)據(jù)服務(wù)商Bitly，探討市場不確定性、信息需求與美國國債價格的關(guān)系。
Giglio, Liao, and Xiu	資產(chǎn)定價	建立了一套理論框架，綜合使用多種機(jī)器學(xué)習(xí)方法，減輕了資產(chǎn)定價領(lǐng)域中數(shù)據(jù)窺探和“偽發(fā)現(xiàn)”的擔(dān)憂。

Erel et al., 2021：機(jī)器學(xué)習(xí)與董事選舉

1） 研究主題

董事選舉是公司治理的重要環(huán)節(jié)。由于人們投票的依據(jù)是對潛在候選人未來表現(xiàn)的預(yù)期，因此董事選舉實際上是一個預(yù)測問題。相對來說，傳統(tǒng)的計量方法多用于估計結(jié)構(gòu)變量和因果推斷，而機(jī)器學(xué)習(xí)則更適合做出預(yù)測。這篇文章構(gòu)建了一個基于算法的數(shù)據(jù)驅(qū)動模型，根據(jù)董事個人特征預(yù)測其在特定公司的年度選舉中的表現(xiàn)。

2） 主要研究方法

董事的行為往往呈現(xiàn)集體性和關(guān)聯(lián)性特征，因此很難在日常公司經(jīng)營中單獨分離出單個董事的表現(xiàn)。作者根據(jù)Hart and Zingales（2017），選用股東在年度選舉中對特定董事的支持度作為董事表現(xiàn)的代理變量；其依據(jù)為董事的信托責(zé)任是代表股東的利益，因此董事表現(xiàn)越好受到的支持也越多。特別地，定義主要被解釋變量excess vote：某董事三年內(nèi)平均獲得的選票數(shù)占所有候選人得到的總選票數(shù)的比例。

模型中對董事表現(xiàn)有預(yù)測力的因子包括公司和董事個人屬性，如性別、年齡、人際關(guān)系網(wǎng)絡(luò)和任職經(jīng)歷等。作者使用了Lasso、XGBoost和神經(jīng)網(wǎng)絡(luò)等多種機(jī)器學(xué)習(xí)算法，并取2000~2011年2407個公司和12815個董事及候選人的樣本數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型，以發(fā)現(xiàn)何種變量的組合可以更好地預(yù)測董事的未來表現(xiàn)。最后，將2012~2014年的數(shù)據(jù)作為測試集，與傳統(tǒng)的OLS模型對比預(yù)測結(jié)果。

3） 主要結(jié)果

文章發(fā)現(xiàn)，在樣本外測試中，根據(jù)算法預(yù)測在選舉中將會表現(xiàn)糟糕的董事，得到的選票確實不盡如人意。董事在現(xiàn)實中的表現(xiàn)與模型預(yù)測的表現(xiàn)排名高度相關(guān)，證明了機(jī)器學(xué)習(xí)的有效性。

與之對應(yīng)的，如FIGURE 1和TABLE 3所示，傳統(tǒng)的OLS模型無法有效預(yù)測董事表現(xiàn)，模型得到的投票排名和對應(yīng)董事現(xiàn)實的受歡迎程度并無顯著關(guān)系。為了排除模型設(shè)定偏誤的影響，作者對15個不同的模型進(jìn)行了OLS回歸，并使用赤池信息準(zhǔn)則（AIC）判斷估計質(zhì)量。在TABLE 3中報告的模型是15個中表現(xiàn)最好的，進(jìn)一步說明了機(jī)器學(xué)習(xí)的優(yōu)越性。

文章對預(yù)測結(jié)果的深入分析還發(fā)現(xiàn)，那些算法不看好但卻選舉成功的董事往往擁有一些共同特征，如更多為男性、擁有更大的社交網(wǎng)絡(luò)或在更多的董事會中任職等。一種解釋是企業(yè)通常會選擇更同質(zhì)的董事，而算法傾向于多樣化的董事會。此外，結(jié)果表明算法預(yù)測與現(xiàn)實差異較大的公司面臨更嚴(yán)重的公司治理問題，暗示代理沖突可能是董事選舉扭曲的一個原因。

關(guān)于OLS模型在選舉預(yù)測中的失敗，作者認(rèn)為這主要是因為變量的非線性和交互性。這一結(jié)論也為未來的研究提供了可行的方向，即探討變量交互項和非線性關(guān)系在模型中的重要性。

Li et al., 2021：NLP與企業(yè)文化

1）研究主題

作者試圖量化企業(yè)文化的概念并考察其意義。雖然公司文化一直以來都被視為商業(yè)成功或失敗背后的重要因素，但數(shù)據(jù)上的挑戰(zhàn)讓相關(guān)研究難以進(jìn)行。事實上，在Graham et al.（2018）的訪談研究中，企業(yè)高管們推薦了11個度量文化的數(shù)據(jù)來源，而其中大多數(shù)都是非結(jié)構(gòu)化的。這篇文章使用了其中一個資源——財報電話會議記錄，并借助自然語言處理（NLP）提取其中代表企業(yè)文化的關(guān)鍵要素。

2）主要方法

首先，作者使用word2vec進(jìn)行文本向量化。不同于傳統(tǒng)粗暴計數(shù)的字嵌入方法（即計算鄰近詞的出現(xiàn)次數(shù)并將其作為目標(biāo)詞的向量表示），word2vec通過一組參數(shù)預(yù)測可能的鄰近詞，從而倒推出目標(biāo)詞的含義，并將該組參數(shù)作為此特定詞語的詞向量。在學(xué)習(xí)的過程中，參數(shù)一開始是隨機(jī)初始化的，隨后通過反向傳播法進(jìn)行調(diào)整。經(jīng)過一定次數(shù)的迭代循環(huán)，作者得到了大量固定維數(shù)（一般處于50~500之間）的詞向量。

文章使用5個標(biāo)普500公司網(wǎng)站中最常提到的詞匯作為起點：創(chuàng)新、正直、質(zhì)量、敬畏和團(tuán)隊。同時，作者也借用Guiso, Sapienza, and Zingales（2015）提供的與各個核心價值相關(guān)的“種子詞匯”，與5個核心詞匯一起作為度量的基準(zhǔn)?？紤]到某些詞語具有學(xué)科特征，在金融和其他行業(yè)語境下表現(xiàn)出不同的涵義，作者在訓(xùn)練模型后手工檢查了核心/種子詞匯及其同義詞，以確保5個公司文化的定義清晰明了。此外，作者還加入了種子詞匯的不同語法形式和同義短語。

接下來，作者需要創(chuàng)建每個企業(yè)的“文化詞典”。任意兩個單詞之間的相關(guān)性由它們詞向量的余弦相似度得出。根據(jù)這種方法，作者將財報會議記錄中的詞語與種子詞匯聯(lián)系起來，建立了異質(zhì)的文化詞典。最后，作者人工檢查并剔除不合適的詞語，如命名實體、特殊涵義詞語或過于廣義的詞匯等。

最后一步是在公司-財年層面構(gòu)建每個觀測的文化指標(biāo)。每種文化的得分是其相關(guān)詞語的加權(quán)計數(shù)占總詞數(shù)的比例。特別地，作者使用反比文檔頻數(shù)權(quán)重評價方法（tf-idf）加權(quán)。這種方法對頻率更高的詞匯賦以更低的權(quán)重，從而減少對公司“自我宣傳”的擔(dān)憂。

3）研究貢獻(xiàn)

以往關(guān)于企業(yè)文化的研究主要使用代理變量或采用調(diào)查/訪談的方式。這篇文章使用最新的詞向量模型來度量文化，從而可以處理大樣本的面板數(shù)據(jù)。在方法論上，詞向量模型可以突破傳統(tǒng)的詞袋模型把字詞視為相互獨立符號的假設(shè)，因此避免了忽略上下文語境導(dǎo)致的偏誤，將語法表達(dá)層面的量化方法推進(jìn)到語義層面；另外，作者在訓(xùn)練模型中運用半監(jiān)督機(jī)器學(xué)習(xí)方法，兼顧監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的缺點，使之在上述兩者都失效的環(huán)境下（如缺少已標(biāo)記的實例、企業(yè)屬性較為微妙且無法直接從數(shù)據(jù)得出）仍然可行。

4）主要結(jié)果

如表2所示，對公司的文化評估發(fā)現(xiàn)，創(chuàng)新是最常提到的文化詞語，而正直是相對最少的。

表2              公司文化的描述性統(tǒng)計

表3展示了不同文化之間的相關(guān)性，作者發(fā)現(xiàn)創(chuàng)新與產(chǎn)品質(zhì)量之間的相關(guān)度最高，達(dá)到0.490；而正直與質(zhì)量之間的相關(guān)性最低（0.023）。此外，對文化和公司特征之間的關(guān)系研究發(fā)現(xiàn)，企業(yè)的規(guī)模與杠桿與除正直以外的四個文化因子顯著負(fù)相關(guān)；ROA與所有文化因子都顯著負(fù)相關(guān)。這一現(xiàn)象符合通常的解釋，即具有強(qiáng)大文化的公司傾向于更多的R&D投資和SG&A，因此放棄了部分短期的利潤而著眼于長遠(yuǎn)發(fā)展。

表3                相關(guān)性矩陣

文章的進(jìn)一步研究還發(fā)現(xiàn)，在公司的困難時期，文化與績效的關(guān)系更加顯著；企業(yè)文化也可以被M&A等重大事件影響或重塑。特別地，創(chuàng)新文化和敬畏感更強(qiáng)的企業(yè)傾向于成為收購者，且文化相近的公司之間也更容易成功兼并。

Easley et al., 2021：機(jī)器時代的市場微觀結(jié)構(gòu)

1）研究主題

隨著市場逐漸機(jī)器化、算法交易和高頻交易越來越普及，從前基于單一市場和簡單結(jié)構(gòu)的經(jīng)驗指標(biāo)可能無法再維持其解釋和預(yù)測效力。作者使用機(jī)器學(xué)習(xí)方法，檢驗傳統(tǒng)的市場微觀結(jié)構(gòu)指標(biāo)是否仍能解釋和預(yù)測市場。

2）主要方法

采用全球87個最具流動性的期貨產(chǎn)品的5年波動數(shù)據(jù)，這篇文章檢驗了6種市場指標(biāo)（the Roll measure，the Roll impact，VIX，Kyle’s ，the Amihud measure，VPIN）對5種市場產(chǎn)出（買賣價差、實際波動率、JB統(tǒng)計量、收益率的峰度和偏度、實際收益的序列相關(guān)性）的預(yù)測能力。

作者運用隨機(jī)森林分類算法進(jìn)行實現(xiàn)。機(jī)器學(xué)習(xí)中分類的目的是用一組解釋變量來預(yù)測離散或分類的被解釋變量，類似傳統(tǒng)回歸的最小方差思想。但由于被解釋變量具有離散的特點，因此需要用交叉熵或信息增益取代標(biāo)準(zhǔn)的誤差函數(shù)。特別地，作者將解釋變量視為一組特征，將被解釋變量視為有限的標(biāo)簽集。對每一個期貨合約樣本應(yīng)用算法，得到了從特征變量到標(biāo)簽集的一個映射。

為了進(jìn)一步精確度量不同特征對隨機(jī)森林層次結(jié)構(gòu)的貢獻(xiàn)，作者使用兩種特征重要性度量方法：平均不純度減少（MDI）和平均準(zhǔn)確度減少（MDA）。MDI評估森林中每個特征的信息增益，并以其樣本數(shù)量為權(quán)重加權(quán)求和，最后標(biāo)準(zhǔn)化得分。對于給定的數(shù)據(jù)集，特征i的MDI為：

其中IG(·)代表數(shù)據(jù)集S在節(jié)點n分叉的信息增益，p代表數(shù)據(jù)集中第i類特征的數(shù)量。

需要指出的是，MDI是一種樣本內(nèi)方法，類似回歸分析中的P值。而MDA通過樣本外測試計算特征重要性。其步驟為：①將數(shù)據(jù)集分割為互斥的訓(xùn)練集和測試集；②在訓(xùn)練集上用所有的特征變量訓(xùn)練一個分類器；③用該分類器預(yù)測測試集，并記錄表現(xiàn)結(jié)果；④隨機(jī)改變測試集的一個特征變量值，重新進(jìn)行預(yù)測并記錄結(jié)果。MDA的表達(dá)式如下：

其反映了變動特征i對結(jié)果產(chǎn)生的影響程度有多大。變動后的表現(xiàn)越差，說明特征i的重要程度越高。

3）主要結(jié)論

作者對每種變量和每個產(chǎn)出都進(jìn)行了MDI和MDA特征重要性測試，表4列出了其中各指標(biāo)對序列相關(guān)性的度量結(jié)果。每個單元格以“均值”±“標(biāo)準(zhǔn)差”的形式呈現(xiàn)，按不同的窗口大小分組，每個組內(nèi)重要性最高的特征被加粗?？梢钥闯鯩DI方法下Amihud指標(biāo)和VIX波動指標(biāo)對序列相關(guān)的解釋較好，而運用MDA時Roll指標(biāo)表現(xiàn)最佳。樣本內(nèi)和樣本外的測試中出現(xiàn)了顯著不同的結(jié)果，說明部分指標(biāo)仍具有較強(qiáng)的解釋現(xiàn)實能力，但難以用于預(yù)測未來（反之亦然）。但總的來說，在高頻交易和機(jī)器交易開始占據(jù)主導(dǎo)的市場中，傳統(tǒng)指標(biāo)仍能有效預(yù)測期貨的價格和波動性。

表4    各指標(biāo)對序列相關(guān)性的MDI（上）和MDA（下）特征重要性

此外，作者還發(fā)現(xiàn)進(jìn)行預(yù)測的函數(shù)形式取決于其應(yīng)用場景。在研究單一資產(chǎn)時，簡單logistic回歸與復(fù)雜機(jī)器學(xué)習(xí)算法得到了幾乎一樣好的結(jié)果。對此的解釋可能是人們已經(jīng)對單一資產(chǎn)的市場結(jié)構(gòu)有了深刻的認(rèn)識。但對跨資產(chǎn)進(jìn)行分析時，機(jī)器學(xué)習(xí)顯著優(yōu)于簡單回歸。盡管很少有市場微觀結(jié)構(gòu)的理論能解釋跨資產(chǎn)交易效應(yīng)為什么能產(chǎn)生，Easley et al.（2021）的研究卻有力證明了資產(chǎn)之間的相互作用可以預(yù)測市場產(chǎn)出，且機(jī)器學(xué)習(xí)能解決其伴隨的高維數(shù)據(jù)結(jié)構(gòu)挑戰(zhàn)。

Anand et al., 2021：經(jīng)紀(jì)人與機(jī)構(gòu)投資者的代理沖突

1）研究主題

這篇文章研究了一個巨大的、未被識別的潛在代理問題，即經(jīng)紀(jì)人是否通過其擁有的另類交易系統(tǒng)（ATS）發(fā)送指令與其提供服務(wù)質(zhì)量好壞的關(guān)系。作者主要回答兩個問題：經(jīng)紀(jì)人是否會更愿意利用自有ATS發(fā)送訂單？以及，其對ATS的偏好和執(zhí)行質(zhì)量之間是否存在顯著關(guān)系？

從理論上分析，使用ATS可以為經(jīng)紀(jì)人節(jié)省過戶費等支出并提高收入，或為客戶提供流動性優(yōu)勢；但同時也帶來了高度信息不對稱問題，導(dǎo)致機(jī)構(gòu)投資者難以有效監(jiān)管其代理人的行為。因此自有ATS對代理質(zhì)量的影響是不確定的。然而，實證研究一直受到數(shù)據(jù)方面的掣肘：貿(mào)易和報價數(shù)據(jù)庫（TAQ）并未公開經(jīng)紀(jì)人身份信息，且自述型數(shù)據(jù)易受到磨損和樣本選擇偏見的影響。作者在這篇文章中使用來自FINRA的一個超大規(guī)模數(shù)據(jù)集OATS以克服上述困難。

2）主要方法

作者在交易指令層面開展研究?；谑兄狄?guī)模對2016年10月內(nèi)交易的股票進(jìn)行分層抽樣，得到300只股票樣本；選擇43個典型的機(jī)構(gòu)型證券經(jīng)紀(jì)商；與TAQ數(shù)據(jù)庫對比檢查并填充缺失值。最終，作者得到了一個包含超過3.5億個訂單信息的大規(guī)模數(shù)據(jù)集。

對于代理質(zhì)量，作者主要從四個方面進(jìn)行衡量：①完成率fil**l rate表示所有遞交的母訂單中完成的比例；②有效價差effective spread，定義為訂單的加權(quán)價格與同時間NBBO中間價的百分?jǐn)?shù)差；③執(zhí)行延遲delay表示訂單完成部分的價格漂移成本與未完成部分的清算成本之和；④執(zhí)行差額s**hortfall度量以收盤價計算的當(dāng)日未完成訂單成本。執(zhí)行質(zhì)量與ATS傾向的基準(zhǔn)回歸模型如下：

其中Yi,s,t代表t日經(jīng)紀(jì)人i對股票s交易的執(zhí)行質(zhì)量，核心解釋變量Affiliated ATSi,s,t表示該股票交易中通過自有ATS進(jìn)行處理的訂單比例。X是其他控制變量。

3）主要結(jié)果

表5                基準(zhǔn)回歸結(jié)果

表5展示了模型(4)的回歸結(jié)果。從第1~3列可以看出，更喜歡選擇自有ATS的經(jīng)紀(jì)人可能會完成更少的訂單；具體地，自有ATS訂單的比例每上升1個標(biāo)準(zhǔn)差，完成率平均將下降11.6個百分點。對shortfall的回歸結(jié)果表明，對ATS傾向較高的經(jīng)紀(jì)人完成訂單的執(zhí)行差額成本也較高。此外，有效價差與ATS傾向沒有顯著關(guān)系；而執(zhí)行延遲與執(zhí)行差額的結(jié)果較為相似，說明差額成本主要源于價格漂移和清算支出?？偟膩碚f，作者發(fā)現(xiàn)自有ATS確實與代理沖突高度相關(guān)，經(jīng)紀(jì)人通過其所有的ATS完成客戶指令可以提高收入，但同時損害了客戶的利益。

這篇文章的主要特點是使用了異常大的數(shù)據(jù)集，以至于即使是其中的一部分子樣本也蘊含著豐富的結(jié)論。作者利用SEC的Tick Size Pilot（TSP）改革建立了一個準(zhǔn)自然實驗，使用相同區(qū)間內(nèi)的子樣本構(gòu)建三重差分模型，發(fā)現(xiàn)受到TSP政策影響且更偏愛自有ATS的經(jīng)紀(jì)人在政策實施后的代理服務(wù)質(zhì)量有顯著提高，證明了ATS傾向與代理問題之間存在因果關(guān)系。

Benamar, Foucault, and Vega (2021)：不確定性、信息需求與資產(chǎn)價格

1）研究主題與理論

Benamar et al.（2021）探究了美國國庫券對宏觀經(jīng)濟(jì)公告的價格反應(yīng)與信息需求及市場不確定性的關(guān)系，發(fā)現(xiàn)國債價格的響應(yīng)程度與對信息的需求大小高度相關(guān)。雖然貝葉斯學(xué)習(xí)模型認(rèn)為當(dāng)投資者在事前取得了更多的信息時，事后資產(chǎn)價格受到的影響應(yīng)該更弱；但作者認(rèn)為信息需求是內(nèi)生的，即投資者獲取信息的動機(jī)來源于結(jié)果本身的不確定性。因此，信息需求可以作為市場不確定性的一個代理變量：當(dāng)外生沖擊導(dǎo)致不確定性上升時，投資者將試圖獲取更多信息，但無法完全抵消額外的不確定性。

2）主要方法

作者選取了2011~2016年66個非農(nóng)就業(yè)公告作為宏觀經(jīng)濟(jì)的沖擊，并以標(biāo)題中包含“就業(yè)”的網(wǎng)頁在新聞發(fā)布前兩小時內(nèi)的點擊量作為信息需求的代理變量。不同于Li et al.（2021）自己處理數(shù)據(jù)的做法，作者借助一個商業(yè)數(shù)據(jù)供應(yīng)商Bitly來幫他們將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。Bitly是一個短鏈接供應(yīng)商，可以縮短新聞等網(wǎng)頁的鏈接長度，使其匹配社交平臺的字符數(shù)要求，從而促進(jìn)了信息的傳播。此外，Bitly還提供了其短鏈接的相關(guān)統(tǒng)計數(shù)據(jù)，如點擊量、設(shè)備使用量及地理位置等?；诖?，作者建立了一個信息需求的度量指標(biāo)（Bitly Counts）。

3）主要結(jié)果

作者按非農(nóng)就業(yè)信息的沖擊方向以及相關(guān)網(wǎng)頁點擊量的高低將樣本分成四組，繪出國債累計收益率在公告前后隨時間變化的圖像。如Figure 5所示，信息需求更高時國債價格的波動更大，且沒有出現(xiàn)明顯的不充分反應(yīng)或過度反應(yīng)現(xiàn)象。具體地，作者發(fā)現(xiàn)非農(nóng)就業(yè)新聞發(fā)布前兩小時的相關(guān)Bitly點擊量每上升一個標(biāo)準(zhǔn)誤，美國國庫券利率波動大小就會顯著增加4至6個基點。

這篇文章不僅貢獻(xiàn)了重要的結(jié)果，而且也為大數(shù)據(jù)時代的金融研究指明了新的道路：隨著數(shù)據(jù)的爆發(fā)式增長，數(shù)據(jù)供應(yīng)商行業(yè)也在蓬勃發(fā)展。因此，金融學(xué)家們可以與商業(yè)數(shù)據(jù)供應(yīng)商合作，獲取更全面和更方便的數(shù)據(jù)并減少數(shù)據(jù)處理過程中的精力耗費。

Giglio, Liao, and Xiu (2021)：實證資產(chǎn)定價中的多重假設(shè)檢驗

1）研究主題

數(shù)據(jù)窺探（data snooping）一直是實證資產(chǎn)定價領(lǐng)域的普遍問題。當(dāng)人們想要在上百個異象中找到能解釋股票截面收益率差異的因子，或在上千家基金中找到能提供正收益的基金時，標(biāo)準(zhǔn)方法是對樣本進(jìn)行許多獨立的t檢驗并根據(jù)顯著性做出選擇。然而，隨著假設(shè)檢驗數(shù)量的增加，一些通過t檢驗的因子可能只是出于運氣。這導(dǎo)致這些因子無法在樣本外測試中表現(xiàn)出同樣的解釋力，從而成為數(shù)據(jù)窺探下的“偽發(fā)現(xiàn)”。

作者使用了一系列機(jī)器學(xué)習(xí)技術(shù)，試圖建立一個完整框架來嚴(yán)謹(jǐn)?shù)貓?zhí)行線性資產(chǎn)定價模型中的多重假設(shè)檢驗，并將錯誤發(fā)現(xiàn)率（FDR）控制在一定的程度內(nèi)，以消除數(shù)據(jù)窺探的擔(dān)憂。

2）主要方法

應(yīng)對多重檢驗問題的一個傳統(tǒng)方法是Family-Wise Error Rate（FWER），即面臨N個檢驗時對每個檢驗的顯著性水平都設(shè)定為5%/N。但是，這可能會導(dǎo)致“因噎廢食”的結(jié)果：因為極少的潛在偽發(fā)現(xiàn)錯誤而對所有檢驗設(shè)定異常高的門檻，使原本大于零的可能無法被識別出來。因此，文章使用Benjamini and Hochberg（1995）提出的B-H方法，其目標(biāo)是控制偽發(fā)現(xiàn)出現(xiàn)的概率（即錯誤發(fā)現(xiàn)率FDR）。

在此基礎(chǔ)上，作者綜合運用一套技術(shù)來減少缺失樣本的擔(dān)憂和增強(qiáng)穩(wěn)健性。為了填充缺失數(shù)值并尋找潛在因子，作者借鑒了矩陣補全法（Matrix Completion），由此構(gòu)建的潛在因子修正了檢驗中的相關(guān)關(guān)系；另外，作者還使用了自體抽樣法（Wild-Bootstrap）和篩選法（screening）確保有限樣本的多重假設(shè)檢驗的魯棒性。

特別地，作者采用1994~2018期間的對沖基金數(shù)據(jù)來驗證其理論模型。在樣本內(nèi)回歸中，根據(jù)文章建立的FDR模型選取的正基金數(shù)量顯著少于單純做獨立t檢驗的方法，說明一定程度上減輕了“偽發(fā)現(xiàn)”的錯誤；且這一結(jié)果在樣本外測試中依舊穩(wěn)健。雖然文章只使用了對沖基金樣本，但作者相信這一模型框架在其他資產(chǎn)定價領(lǐng)域中具有同樣的應(yīng)用價值。

大數(shù)據(jù)研究何去何從

以上六篇文獻(xiàn)可以作為金融研究中大數(shù)據(jù)應(yīng)用的起點。作為一個新興領(lǐng)域，大數(shù)據(jù)伴隨著許多問題與機(jī)會。我們討論了幾個可行的研究方向，希望能帶來啟發(fā)。我們相信隨著時間的推移，這個清單將會不斷完善和更新。

1. 機(jī)器學(xué)習(xí)

當(dāng)研究面臨決策者為計算機(jī)的問題時，機(jī)器學(xué)習(xí)可以有較好的應(yīng)用場景。例如，現(xiàn)有研究資產(chǎn)定價的文獻(xiàn)往往使用月度收益率數(shù)據(jù)或季度的持股數(shù)據(jù)；但現(xiàn)在利用機(jī)器學(xué)習(xí)技術(shù)的交易者卻通常在更小的尺度上交易。量化交易的對沖基金巨頭如文藝復(fù)興、Two Sigma、D.E. Shaw等，管理著上百億美元的資產(chǎn)，卻因為交易速度快于傳統(tǒng)基金且慢于高頻交易，而很少出現(xiàn)在金融學(xué)術(shù)文獻(xiàn)的研究范圍內(nèi)。因此，一個可能的研究方向就是連接傳統(tǒng)的基于月度數(shù)據(jù)的研究與高頻交易下秒次層面的研究。在這片未開發(fā)的領(lǐng)域，應(yīng)用機(jī)器學(xué)習(xí)不僅是自然的也是必要的。正如心理學(xué)對人類行為的剖析造成了行為金融學(xué)的興起，對算法行為的研究或許也可以催生“算法行為金融學(xué)”的繁榮。

2. 大數(shù)據(jù)的反饋效應(yīng)

當(dāng)算法交易成為主流，企業(yè)是否應(yīng)改變其行為？機(jī)器學(xué)習(xí)在投資界的廣泛引用以及其對二級市場和公司決策的反饋效應(yīng)，都暗示了企業(yè)應(yīng)該對大數(shù)據(jù)革命有所反應(yīng)。對這一問題的探討在Cao et al.（2020）中初現(xiàn)端倪，他們發(fā)現(xiàn)企業(yè)調(diào)整了其季報和年報以適應(yīng)機(jī)器交易者的需求。

下一步研究可能是考察企業(yè)是否在運營的決策中也考慮了算法交易的作用。舉例來說，當(dāng)投資者結(jié)構(gòu)逐漸由以人為主變成以機(jī)器為主時，企業(yè)是否會更多地投資一些短期的項目？大數(shù)據(jù)革命是會導(dǎo)致管理者減少對市場價格信息的依賴（因為現(xiàn)在有了更多的信息來源），還是更多地研究價格（因為市場價格包含了更多的投資者信息）？

3. 大數(shù)據(jù)的負(fù)面效應(yīng)

雖然大數(shù)據(jù)為機(jī)構(gòu)投資者或企業(yè)提供了更多的有效信息，但其影響并非總是積極的。由于社交媒體大大提升了市場情緒的傳播速度和廣度，因此在突發(fā)事件中市場價格可能會遠(yuǎn)遠(yuǎn)偏離其基礎(chǔ)價值。在Chawla et al.（2019）的研究中，散戶交易造成的價格偏離之所以快速恢復(fù)，主要是由于機(jī)構(gòu)套利者進(jìn)入市場并消除了套利機(jī)會。但是，2021年1月的GameStop事件中我們也見證了社交媒體對資本市場的巨大影響力。散戶們在社交網(wǎng)站上聯(lián)合起來，導(dǎo)致了梅爾文對沖基金虧損達(dá)53%。散戶與機(jī)構(gòu)的相互博弈引起了市場的劇烈波動。因此，大數(shù)據(jù)對社會在不同方面的影響以及其總效應(yīng)是一個值得探究的方向。

4. 更復(fù)雜的數(shù)據(jù)

大數(shù)據(jù)在金融中最初體現(xiàn)為大體量的數(shù)據(jù)分析，而最新的技術(shù)發(fā)展讓研究者得以利用自然語言處理（NLP）從文本中提取信息。因此一個有希望的研究方向是通過分析更多的非結(jié)構(gòu)化數(shù)據(jù)，如音頻、視頻和圖像等，從新的視角看待經(jīng)典問題。如同本刊提到的Li et al.（2021）從財報電話會議記錄中獲取企業(yè)文化的數(shù)據(jù)一樣，越來越多的學(xué)者利用更復(fù)雜的數(shù)據(jù)集開展研究，如衛(wèi)星圖像（Gerken and Painter，2020）。這些數(shù)據(jù)集可以提供一些簡單結(jié)構(gòu)化數(shù)據(jù)無法捕捉到的經(jīng)濟(jì)活動信息，因而具有相應(yīng)的研究價值。

5. 監(jiān)管

在交易越來越機(jī)器化的背景下，為人類設(shè)立的監(jiān)管制度是否也需要進(jìn)行調(diào)整是一個有意思的話題。例如，監(jiān)管者通常會忽略1手以下的交易并免除這些“零碎股”交易的披露要求。然而，機(jī)器交易者逐漸變成這種交易的主要參與方，因為他們可以利用算法以小于1手的數(shù)量下單，從而規(guī)避監(jiān)管。評估潛在的算法交易問題可能是非常重要的，因為這可能是其他一些常見問題的核心，如做市商是否搶先操作、經(jīng)紀(jì)人是否盡到了信托責(zé)任以及內(nèi)部人員是否存在內(nèi)幕交易的情況等。

另一條與監(jiān)管相關(guān)的研究路徑是討論算法和數(shù)據(jù)的隱私性和公平性問題。早在2017年，《經(jīng)濟(jì)學(xué)人》就發(fā)表了封面文章稱“數(shù)據(jù)已經(jīng)取代石油成為當(dāng)今世界最有價值的資源”，并呼吁對數(shù)字經(jīng)濟(jì)實行新的監(jiān)管。數(shù)據(jù)如何分配、如何定價，數(shù)據(jù)不公平又會造成什么后果？這一問題亟需新的理論和實證研究。

6. 理論

本?？惺珍浀奈墨I(xiàn)主要是實證型文章，但理論研究也是必需的。機(jī)器學(xué)習(xí)相較于傳統(tǒng)計量模型的成功主要源于變量之間的高階交互項以及非線性特征，因此可以建立新的理論模型來解釋為何一個經(jīng)濟(jì)變量的影響取決于其與另一個變量的交互作用，或為何一個變量的影響與其自身的大小有關(guān)。機(jī)器學(xué)習(xí)是描述世界的一種方式，但我們也需要理論來解釋它。

機(jī)器學(xué)習(xí)與人工智能的另一個特征進(jìn)一步強(qiáng)調(diào)了理論模型的重要性：人類的行為常常是不一致的，但機(jī)器永遠(yuǎn)基于其底層模型做出決策。Li and Ye（2020）發(fā)現(xiàn)其理論模型甚至可以定量地預(yù)測重大事件發(fā)生后截面上的市場流動性，其中一個可能的原因就是市場參與者主要是算法，而這些算法可能正是使用了與Li and Ye（2020）相似的模型。

7. 跨學(xué)科

未來的大數(shù)據(jù)研究可能需要更多其他學(xué)科的學(xué)者參與。對于大規(guī)模數(shù)據(jù)集的處理困境，研究者可以與超級計算中心合作，后者通常擁有較深厚的技術(shù)和人力資源，如XSEDE。面對高維數(shù)據(jù)和復(fù)雜結(jié)構(gòu)的挑戰(zhàn)，經(jīng)濟(jì)學(xué)家們可以與數(shù)學(xué)、統(tǒng)計學(xué)或計算機(jī)科學(xué)的學(xué)者合作，利用NLP、語義識別或計算機(jī)視覺等技術(shù)處理文本和音視頻數(shù)據(jù)。此外，研究者還可以尋找商業(yè)數(shù)據(jù)供應(yīng)商。J.P. Morgan的報告《大數(shù)據(jù)與人工智能戰(zhàn)略》中列出了一個數(shù)據(jù)供應(yīng)商清單，可以有償處理情感度量或信用卡的使用等另類數(shù)據(jù)。我們相信，不同學(xué)科學(xué)者之間的鼎力合作可以拓寬和加深金融經(jīng)濟(jì)學(xué)的研究，并幫助研究者們克服大數(shù)據(jù)的挑戰(zhàn)。

美國國家科學(xué)基金會（NSF）將大數(shù)據(jù)列為其十大理念之一，并為創(chuàng)新的、跨學(xué)科的研究提供資金支持。我們希望這篇特刊只是一個開始，未來可以看到更多大數(shù)據(jù)在金融和政策研究中的應(yīng)用。

本刊收錄的文獻(xiàn)

[1] Anand, A., M. Samadi, J. Sokobin, and K. Venkataraman. 2021. Institutional Order Handling and Broker-Affiliated Trading Venues. Review of Financial Studies: this issue.
[2] Benamar, H., T. Foucault, and C. Vega. 2021. Demand for Information, Uncertainty, and the Response of US Treasury Securities to News. Review of Financial Studies: this issue.
[3] Easley, D., M. Lopez de Prado, M. O’Hara, and Z. Zhang. 2021. Microstructure in the Machine Age. Review of Financial Studies: this issue.
[4] Erel, I., L. Stern, C. Tan, and M.S. Weisbach. 2021. Selecting Directors Using Machine Learning. Review of Financial Studies: this issue.
[5] Giglio, S., Y. Liao, and D. Xiu. 2021. Thousands of Alpha Tests. Review of Financial Studies: this issue.
[6] Li, K., F. Mai, R. Shen, and X. Yan. 2021. Measuring Corporate Culture Using Machine Learning. Review of Financial Studies: this issue.

關(guān)于機(jī)器學(xué)習(xí)

1.機(jī)器學(xué)習(xí)之KNN分類算法介紹: Stata和R同步實現(xiàn)（附數(shù)據(jù)和代碼），2.機(jī)器學(xué)習(xí)對經(jīng)濟(jì)學(xué)研究的影響研究進(jìn)展綜述，3.陳碩: 回顧與展望經(jīng)濟(jì)學(xué)研究中的機(jī)器學(xué)習(xí)，4.最新: 運用機(jī)器學(xué)習(xí)和合成控制法研究武漢封城對空氣污染和健康的影響! 5.Top, 機(jī)器學(xué)習(xí)是一種應(yīng)用的計量經(jīng)濟(jì)學(xué)方法, 不懂將來面臨淘汰危險！6.Top前沿: 農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機(jī)器學(xué)習(xí), 其與計量經(jīng)濟(jì)學(xué)的比較, 不讀不懂你就out了！7.前沿: 機(jī)器學(xué)習(xí)在金融和能源經(jīng)濟(jì)領(lǐng)域的應(yīng)用分類總結(jié)，8.機(jī)器學(xué)習(xí)方法出現(xiàn)在AER, JPE, QJE等頂刊上了！9.機(jī)器學(xué)習(xí)第一書, 數(shù)據(jù)挖掘, 推理和預(yù)測，10.從線性回歸到機(jī)器學(xué)習(xí), 一張圖幫你文獻(xiàn)綜述，11.11種與機(jī)器學(xué)習(xí)相關(guān)的多元變量分析方法匯總，12.機(jī)器學(xué)習(xí)和大數(shù)據(jù)計量經(jīng)濟(jì)學(xué), 你必須閱讀一下這篇，13.機(jī)器學(xué)習(xí)與Econometrics的書籍推薦, 值得擁有的經(jīng)典，14.機(jī)器學(xué)習(xí)在微觀計量的應(yīng)用最新趨勢: 大數(shù)據(jù)和因果推斷，15.R語言函數(shù)最全總結(jié), 機(jī)器學(xué)習(xí)從這里出發(fā)，16.機(jī)器學(xué)習(xí)在微觀計量的應(yīng)用最新趨勢: 回歸模型，17.機(jī)器學(xué)習(xí)對計量經(jīng)濟(jì)學(xué)的影響, AEA年會獨家報道，18.回歸、分類與聚類：三大方向剖解機(jī)器學(xué)習(xí)算法的優(yōu)缺點（附Python和R實現(xiàn)），19.關(guān)于機(jī)器學(xué)習(xí)的領(lǐng)悟與反思，20.機(jī)器學(xué)習(xí)，可異于數(shù)理統(tǒng)計，21.前沿: 比特幣, 多少罪惡假汝之手? 機(jī)器學(xué)習(xí)測算加密貨幣資助的非法活動金額! 22.利用機(jī)器學(xué)習(xí)進(jìn)行實證資產(chǎn)定價, 金融投資的前沿科學(xué)技術(shù)! 23.全面比較和概述運用機(jī)器學(xué)習(xí)模型進(jìn)行時間序列預(yù)測的方法優(yōu)劣！24.機(jī)器學(xué)習(xí)已經(jīng)用于微觀數(shù)據(jù)調(diào)查和構(gòu)建指標(biāo)了, 比較前沿！25.幾張有趣的圖片, 各種類型的經(jīng)濟(jì)學(xué), 機(jī)器學(xué)習(xí), 科學(xué)論文像什么樣子？

下面這些短鏈接文章屬于合集，可以收藏起來閱讀，不然以后都找不到了。

2.5年，計量經(jīng)濟(jì)圈近1000篇不重類計量文章，

可直接在公眾號菜單欄搜索任何計量相關(guān)問題,

Econometrics Circle

計量經(jīng)濟(jì)圈組織了一個計量社群，有如下特征：熱情互助最多、前沿趨勢最多、社科資料最多、社科數(shù)據(jù)最多、科研牛人最多、海外名校最多。因此，建議積極進(jìn)取和有強(qiáng)烈研習(xí)激情的中青年學(xué)者到社群交流探討，始終堅信優(yōu)秀是通過感染優(yōu)秀而互相成就彼此的。