這篇TOP刊上的文章對文本分析的技術以及在商學研究中的應用做了一個綜述,對于將文本分析方法應用于經(jīng)濟學研究也有借鑒意義。
關于下方文字內(nèi)容,作者:張繼軒,蘭州大學管理學院
文本分析技術及在經(jīng)濟學和商學中的應用 目錄 一、概論敘述(narrative)是“理解人類行為的動機和經(jīng)濟影響”的重要抓手(Shiller 2017),而文本是敘述的主要呈現(xiàn)形式,因此分析大量文本是開展經(jīng)濟與管理研究的重要渠道。傳統(tǒng)的分析文本方式是人工整合分析,而自然語言處理(natural language processing, NLP)的出現(xiàn)使得分析文本更加簡便、迅速、高效。本論文所討論的文本分析(textual analysis)就是將自然語言處理技術(下文簡寫為NLP)應用于文本數(shù)據(jù)。 近二十年來,文本分析在社科研究中越來越頻繁地出現(xiàn)。在會計研究中,文本分析扮演著各種角色:52.7%直接從文檔中構(gòu)建變量,并將該變量用作假設檢驗的因變量或解釋變量;29.9%的文本分析提取目標文本信息(例如通過關鍵字搜索或正則表達式),并從提取的數(shù)據(jù)中構(gòu)建變量以供后續(xù)分析;5.8%的人基于文本分析構(gòu)建控制變量;2.4%的文獻生成了基于文本的變量作為感興趣結(jié)果的預測變量;9.2%用于其他目的??梢钥闯?,文本分析正在研究中扮演越來越重要的角色,有必要學習文本分析的技術及其應用,用好這一強大工具。 在[第二章])中,文章將目前為止常用的NLP方法放在一套框架下敘述,從三個方面進行歸集: (1) 文本表示(Text representation): 文本數(shù)據(jù)如何作為NLP模型的輸入?([2.2節(jié)]) (2) 用什么模型?([2.1節(jié)]) i. 簡單轉(zhuǎn)換 ii. 文本比較 (3) 要什么輸出? 根據(jù)研究具體而定。 [第三章])詳細介紹NLP在會計中的應用,包括常見的披露情緒、可讀性、文件相似性、前瞻性信息和主題探索,并對其NLP實現(xiàn)和深度學習等新方法實現(xiàn)做了介紹。 鑒于文本分析通常用于構(gòu)建假設檢驗,有必要考察文本分析的效度如何。這將在[第四章])進行介紹。 [第五章]為研究人員在實施NLP方法時面臨的常見操作提供指引,例如數(shù)據(jù)采集、預處理、模型選擇、監(jiān)督機器學習等,并推薦了研究中可用的資源(例如,庫、代碼和文本度量) [第六章])介紹了未來研究的兩個方向,包括監(jiān)督深度學習以及主題建模。 這篇文章有三方面的貢獻:(1)強調(diào)文本分析作為一種重要的研究方法的存在;(2)在會計專業(yè)博士生的培養(yǎng)中注意引入文本分析的培訓;(3)對可用的NLP方法及其應用進行了更系統(tǒng)、更完整的新近介紹。 二、NLP方法:概述NLP模型分為兩大類:基于規(guī)則的轉(zhuǎn)換和基于數(shù)據(jù)的轉(zhuǎn)換。 基于規(guī)則的轉(zhuǎn)換 包括簡單轉(zhuǎn)換和文本比較。顧名思義,是使用手動制定的規(guī)則(例如詞典)將輸入轉(zhuǎn)換為輸出。一旦制定了規(guī)則,轉(zhuǎn)換就很簡單了;但這也導致工作量和矛盾也主要集中在轉(zhuǎn)換規(guī)則的制定上(耗時費力,復雜情況不適應,等等)。 基于數(shù)據(jù)的轉(zhuǎn)換 是讓計算機在訓練數(shù)據(jù)(training data)中不受人工干預地學習,這被稱為機器學習(machine learning)。在機器學習中,研究人員可以控制模型的特征(單個可測量的屬性或特征),并且必須仔細調(diào)整超參數(shù)(hyperparameters, 控制模型的學習過程的參數(shù))。許多模型已經(jīng)適配了NLP,一些模型還是為NLP而開發(fā)的。 機器學習 可以分為監(jiān)督學習(supervised learning)和無監(jiān)督學習(unsupervised learning)。在監(jiān)督學習中,訓練數(shù)據(jù)中的輸出變量已經(jīng)被標注或標記,以便機器學習輸入和輸出之間的關系;在無監(jiān)督學習中,輸出變量沒有標記,機器無法根據(jù)標記區(qū)分出輸出數(shù)據(jù),機器的工作是發(fā)現(xiàn)潛在的輸出(例如,語義聚類)。 本文將傳統(tǒng)的機器學習模型和深度學習模型分開,前者在計算機科學領域已經(jīng)發(fā)展了幾十年,并在其他學科中得到了應用,后者是最近才發(fā)展和應用的。 2.1.1 簡單轉(zhuǎn)換這是最簡單的一種轉(zhuǎn)換。常見的例子有 (1) 關鍵字搜索 (2) 對包含某些關鍵詞的詞、句、段的計數(shù) (3) 識別復雜單詞、長句子或其他寫作元素(例如可讀性) (4) 對某些類型的詞進行分類(例如否定詞的計數(shù)) 然而,由于轉(zhuǎn)換過于簡單,因此輸出的解釋工作復雜,導致對輸出的解釋依賴于直覺、心理等。輸出結(jié)果可以有多種多樣的解釋,例如,文檔長度可以代表披露數(shù)量,也可以代表混淆程度;有許多特殊情況也會導致簡單轉(zhuǎn)換的輸出與解釋有偏,例如,每個單詞更多的音節(jié)可能會降低易讀性,但財務報表中的“company” “industry”等單詞的音節(jié)大于平均音節(jié)而具有高度易讀性。 2.1.2 文本比較一些模型,例如文本比較,超越了簡單轉(zhuǎn)換,但尚未使用機器學習等方法。 例如,使用向量空間模型(VSM)的余弦相似度模型用n維向量表示每個文檔,并使用兩個向量之間的夾角來度量兩個文檔的相似度。該方法最初是為信息檢索而設計的,但也可以用于其他目的,如量化披露隨時間變化的程度。 如果向量表示的特征不是簡單的單詞計數(shù),比如主題混合,余弦相似度仍然可以計算和解釋。 2.1.3 傳統(tǒng)機器學習在傳統(tǒng)機器學習中,文章討論如下四個主題: (1) 樸素貝葉斯方法(na?ve Bayes, NB) 這是一種基于貝葉斯定理的概率式的監(jiān)督學習算法,該算法用于分類。 分類單位可以是句子、段落或整個文檔;每個單元被簡化為包含每個單詞頻率的單詞列表。該算法估計最能產(chǎn)生真實分類的權重,然后用這個權重去對其他數(shù)據(jù)進行分類。 這一方法十分流行,但它的實際表現(xiàn)可能受限,這是因這一方法假設用于預測分類的特征是相互獨立的。 (2) K-近鄰(K-nearest neighbors, KNN) 這也是一種監(jiān)督學習算法,用于產(chǎn)生分類或產(chǎn)生連續(xù)型的輸出。 K是研究人員在研究中所考慮的與某個數(shù)據(jù)點近鄰的數(shù)據(jù)點的個數(shù),由研究人員指定;“近鄰”指的是兩個數(shù)據(jù)點之間的“距離”盡可能近。這種方法沒有從訓練數(shù)據(jù)中學習判別函數(shù)。 K值的選擇對KNN算法的性能有很大影響。較小的K值可能導致模型對訓練數(shù)據(jù)過度擬合,而較大的K值可能導致模型欠擬合。 (3) 文本回歸和決策樹(text regressions and decision trees) 文本回歸是在能解決文本數(shù)據(jù)高維性的一種回歸技術。文本的高維性會形成許多待處理特征(因素),而當因素的數(shù)量超過樣本數(shù)量時,常用的回歸方法就無法使用(比如用OLS無法回歸),而且會產(chǎn)生過擬合問題,導致模型在預測其他數(shù)據(jù)時表現(xiàn)不如預測原先的樣本數(shù)據(jù)(Varian 2014)。一種解決方案是正則化(regularization),即在損失函數(shù)中添加懲罰項以減小某些參數(shù)(稱為權重(weight)或系數(shù)(coefficient))的大小。 a) 常用的懲罰線性回歸是ridge和lasso,后者是后來發(fā)展起來的,且現(xiàn)在比前者更受歡迎(Hindman 2015)。 b) 非線性回歸有兩種類型。 i. 分類和回歸樹(classification and regression trees, CART) 這一模型根據(jù)可用的最佳預測特征將數(shù)據(jù)劃分為兩組,并根據(jù)剩余的最佳預測特征進一步劃分每組,直到剩余的特征都不能進一步改善預測為止。大多數(shù)的樹模型是路徑依賴的,可能受到極端觀測值的影響,可能會過擬合。 最新和最流行的模型是隨機森林(random forest, RF),它通過對樣本和特征的交叉隨機抽樣來克服上面的弱點(Hindman 2015)。 ii. 支持向量機(support vector machine, SVM) 這一模型將訓練數(shù)據(jù)作為高維空間中的數(shù)據(jù)點,并在高維空間中找到一個超平面分類。支持向量機在某種意義上是半?yún)?shù)的,一方面估計參數(shù),但另一方面又允許一系列結(jié)構(gòu)可能性(Cui and Curry 2005)。SVM的一種變體是支持向量回歸(support vector regression, SVR),其具有處理高維輸入的正則化機制,在輸出變量連續(xù)時可以使用。 (4) 主題建模(topic modeling) “主題”是文本數(shù)據(jù)的一個潛在屬性(輸出),它依賴于詞的共現(xiàn)趨勢。在技術層面上,主題發(fā)現(xiàn)是搜索相關詞的聚類,并將輸入數(shù)據(jù)的維數(shù)降低到這些聚類上(Schwartz and Ungar 2015)。最流行的模型是潛在狄利克雷分配(latent Dirichlet allocation, LDA)。由于LDA是一個概率模型,必須預先指定主題的數(shù)量等,因此一個研究人員生成和解釋的主題可能與另一個研究人員生成和解釋的主題不完全相同。這一技術也可以在檢查兩個文檔的主題相似性等不需要明確主題的情況下使用。 2.1.4 深度學習傳統(tǒng)的機器學習方法在大多數(shù)時候可以提供解決方案,但是當問題的復雜性上升時,傳統(tǒng)機器學習可能無法提供令人滿意的結(jié)果,這主要有三方面原因:(1) 傳統(tǒng)機器學習可以學習非線性關系,但很困難甚至不可能;(2)傳統(tǒng)機器學習需要研究人員手動標注來作為模型輸入;(3)研究人員往往從零開始訓練傳統(tǒng)機器學習模型,這需要大量的數(shù)據(jù)。 深度學習可以克服上面的困難。在概念層面上,深度學習是一種特殊的機器學習,其把世界建構(gòu)成一個概念體系,每個概念都以更簡單/不那么抽象的概念加以定義,這樣可以實現(xiàn)更好的效果,具有更好的靈活性(Goodfellow et al. 2016, 8)。在技術層面上,深度學習通過人工神經(jīng)網(wǎng)絡(artificial neural network, ANN)來模仿人類的大腦。深度學習有更多隱藏層(三個甚至更多)和更少的各層節(jié)點,層數(shù)越大的層處理的復雜性更大。 下面,文章詳細討論ANN和深度學習的發(fā)展。 ANN的基本形式至少在1980年就存在,當時被用于圖像的模式識別(Fukushima 1980)。ANN至少有三層神經(jīng)元:輸入層,一個或多個隱藏層和一個輸出層。輸入層表示模型的輸入數(shù)據(jù),輸出層產(chǎn)生一系列連續(xù)變量(比如句子的情感賦值),這些連續(xù)變量可以進一步被映射為相互獨立的分類。深度學習模型會學習如何通過在選定的激活函數(shù)(activation function)和損失函數(shù)(loss function)的基礎上調(diào)整每一層的權重和偏差(類似于傳統(tǒng)回歸中的斜率和截距)在輸入和輸出之間構(gòu)建映射。研究人員要根據(jù)研究情境、任務復雜度和模型表現(xiàn)來選擇隱藏層和每層上節(jié)點的數(shù)量,對于每一層的其他設定也可以做選擇。 圖 1 ANN圖解 早期,ANN被集中應用于圖像處理。一個電子圖像就是二位的像素矩陣;像素相對于相鄰的像素才有意義。圖像的這種特征使得卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)被開發(fā)出來。到2000年代中期,在訓練技術逐步改進以及形成多個隱藏層的基礎上,術語“深度學習”被首次使用(Goodfellow et al. 2016, 18)。后來發(fā)現(xiàn)CNN可以很好地處理自然語言(LeCun et al. 2015),但CNN在語言順序性上有限制,因為圖像是二維的,而語言敘述的順序在技術上往往是一維的,而且在一維上更大范圍的上下文可能更有助于理解。 遞歸神經(jīng)網(wǎng)絡(recurrent neural networks, RNN)在ANN中添加時間感知循環(huán),能夠更好地理解語言依賴性和上下文,適用于翻譯、詞嵌入和句子分類(Aggarwal 2018)。由于其循環(huán)特性,RNN往往具有良好的短期“記憶”,即根據(jù)周圍的詞語進行分析,但隨著上下文的距離越來越遠,長期記憶就會變差。長短期記憶(long short-term memory, LSTM)是對RNN循環(huán)機制的改進,允許提高對額外上下文的認識(Hochreiter and Schmidhuber 1997),提高模型的“注意力”(“attention”)。后來,一個開創(chuàng)性研究(Vaswani et al. 2017)刪除了RNN中的循環(huán)機制,并表明“注意力機制”足以讓模型表現(xiàn)優(yōu)良。這種基于注意力機制的模型被稱為轉(zhuǎn)換器模型(transformer),近年來主導了NLP的發(fā)展。谷歌的BERT模型就是一例,現(xiàn)在被廣泛適用。 與傳統(tǒng)機器學習相比,深度學習有三方面的優(yōu)勢:(1)可以學習復雜關系;(2)訓練過程可以自動化;(3)可以遷移學習,可以使用預先訓練過的模型,微調(diào)也只需要相對少量的數(shù)據(jù)。 2.2 文本表示有兩種方法可以將文本表示為NLP的輸入。BOW通常用于簡單的轉(zhuǎn)換、文本比較和傳統(tǒng)的機器學習模型,而詞嵌入通常用于深度學習模型。 2.2.1 詞袋法(Bag-of-Words, BOW)在這種方法下,文檔由一個向量表示,向量的每個分量對應于語料庫中的一個唯一特征詞,1表示存在,0表示不存在,這種編碼方式稱為獨熱編碼。 當研究人員對特定關鍵詞感興趣或需要比較兩個文檔的語言時,這種方法較為適用。這種方法的問題在于,簡單機械編碼方式可能會過度簡化語言的豐富性,并且無法表示單詞語義之間的關系。 2.2.2 詞嵌入(Word Embedding)這種將每個詞映射到一個特征向量(feature vector, 不是線性代數(shù)中的eigenvector),該特征向量由抽象特征的權重組成,具有相似含義的單詞具有相似的向量表示。 單詞嵌入方法有三個好處:(1)它相比之下更能反映單詞之間的語義關系;(2)它將輸入的維度從數(shù)千個相互獨立的單詞減少到數(shù)百個特征,從而提高了機器學習的效率;(3)它使特征向量的線性運算變得有意義(例如,對于[“國王”-“男人”+“女人”]的向量操作將產(chǎn)生一個接近于“女王”的特征向量)。 目前已有三代詞嵌入模型。第一代由Bengio et al. (2001)提出,使用基于統(tǒng)計相關性而非上下文的概率方法提出了詞嵌入的想法。第二代詞嵌入技術使用淺神經(jīng)網(wǎng)絡(少于三個隱藏層的人工神經(jīng)網(wǎng)絡)和無監(jiān)督學習來發(fā)現(xiàn)訓練數(shù)據(jù)中的詞關系,例如谷歌開發(fā)的Word2Vec和斯坦福大學開發(fā)的GloVe。雖然這兩者仍然被廣泛使用,但它們不能反映當前文檔的上下文是一個明顯的弱點。第三代詞嵌入技術解決了這個缺點,這是深度學習語言模型提供的一種擴展類型的嵌入,如ELMo和BERT。 NLP的最新進展主要在深度學習中,這要求研究人員跟上這一領域的最新發(fā)展。 三、NLP在會計研究中的應用在作者所調(diào)查的207份文獻中: l 37.2% 測量了披露情緒; l 25.6% 衡量信息披露的可讀性; l 18.8% 將包含關鍵詞的單詞、句子或文章作為文本信息量的代表; l 10.1% 比較信息披露的相似性或差異性; l 6.8% 識別前瞻性信息; l 2.4% 檢測披露主題。 圖 2 采用文本分析的文獻:分析 3.1 情感分析 (Sentiment Analysis)3.1.1 字典法 (Dictionary Method)字典法是一種非常直接的方法,在會計研究中大量被使用(在本文所覆蓋的所有會計研究論文中,97.4%使用了該方法)。字典是一個包含了詞語和詞語連接規(guī)則的列表。研究人員使用一個提前設定的字典對整個文件進行分析,將正向詞匯出現(xiàn)的詞頻與負面詞匯出現(xiàn)的詞頻之差和全文字數(shù)之比作為文章情感的度量。在這種度量方式中,研究者可以看出哪個詞對于情感度量分數(shù)的貢獻更多。 這種方法簡單直接,但局限性也很大:
例如,“public good”一詞中的“good”就不是“好”的意思。此外,在更長的上下文中,詞語的意思可能會發(fā)生微妙的改變,這更不容易被注意到。
例如,“bad”和“terrible”在字典法中是同樣的權重,但事實上,單就這兩個單詞看,“terrible”所表達的負面情緒自然比“bad”要強。Bochkay et al. (2020) 制作了一個兼具情感方向和情感程度的詞庫。
3.1.2 機器學習方法與字典方法相比,機器學習可以解釋語言的特殊性,如否定詞、強化詞和基于詞性或上下文的不同含義。 在情感分析中應用機器學習方法,是使用標記的訓練數(shù)據(jù)(例如,分類為積極、消極或中性的句子)來發(fā)現(xiàn)輸入文本特征和輸出情感標簽之間的關系,然后使用訓練過的模型來分析其他文本的情感。這是一種監(jiān)督學習。Heitmann et al. (2020) 對216篇出版物進行了meta分析,發(fā)現(xiàn)傳統(tǒng)機器學習進行情感分析的準確性遠超字典法。深度學習方法進一步優(yōu)于傳統(tǒng)機器學習方法。不過,目前還只有少數(shù)會計研究使用傳統(tǒng)的機器學習或深度學習模型進行情感分析,且直到最近才開始使用轉(zhuǎn)換器。研究人員需要為監(jiān)督學習而對數(shù)據(jù)進行標記,傳統(tǒng)機器學習模型通常必須從頭開始訓練,而遷移學習允許使用相比于傳統(tǒng)機器學習更少的訓練數(shù)據(jù)來微調(diào)預訓練的深度學習模型。 舉例 有幾種類型的機器學習模型被用于情感分析。傳統(tǒng)的機器學習模型包括NB (F. Li 2010b; Azimi and Agrawal 2021)、SVM (Howard and Ruder 2018)和RF (Frankel et al. 2021)。在深度學習模型中,CNN、LSTM和轉(zhuǎn)換器(例如BERT)都可以執(zhí)行包括情感分析在內(nèi)的各種文本分類任務(Zhang et al. 2015; Wang et al. 2016; Colón-Ruiz and Segura-Bedmar 2020)。針對金融文本的轉(zhuǎn)換器模型有FinBERT,在BERT的架構(gòu)下使用金融文本訓練模型。 3.2 可讀性(Readability)可讀性是指讀者在理解文本時所承受的認知負擔。這受到許多因素的影響,包括詞的復雜性、詞的熟悉度、語法、思想之間的內(nèi)在聯(lián)系和讀者的知識(Martinc et al. 2021)等。 3.2.1 傳統(tǒng)方法研究人員傾向于關注文本的詞匯和句法特征,如復雜單詞的數(shù)量、句子的長度或整個文檔的長度,以簡化可讀性的測量。 會計研究中常用三種方法: l 文本長度(F. Li 2008; Lawrence 2013)或文件大小(Loughran and McDonald 2014; Y. Li and Zhang 2015) 這是衡量可讀性的最簡單的方法,而且邏輯上也很直觀——文本越長,負擔越重,可讀性越低。這種方法的問題在于,更長的文本可能有助于更好地解釋,短文本可能反而讓人無法理解復雜問題,而且文本長可能是由于信息量大所導致(比如說這篇文獻閱讀筆記很長,主要是因為信息量大),這種方法難以將可讀性與信息量分開。 l 迷霧指數(shù)(Gunning Fog Index, FOG; F. Li 2008; Guay et al. 2016) 這是基于每個句子的單詞數(shù)和文本中復雜單詞(即多音節(jié)單詞)的百分比構(gòu)建的。邏輯上也很直觀——更長的句子和更復雜的單詞會增加讀者的認知負荷。問題在于:一是過于簡單化(Crossley et al. 2017);二是在特定領域中,一些復雜的單詞并不一定會造成負擔,例如財務報表中的“company” “industry”等單詞的音節(jié)大于平均音節(jié)而具有高度易讀性(這和2.1.1 簡單轉(zhuǎn)換是一樣的問題)。 l 寫作錯誤(例如被動語態(tài)、重復)的存在(Bonsall et al. 2017)。 Bonsall et al. (2017)提出了BOG指數(shù),綜合考慮了文檔中的平均句子長度、單詞復雜性(例如,重詞、縮寫和專業(yè)術語)、單詞熟悉度和寫作錯誤等。作者證明,BOG優(yōu)于常用的衡量方法。然而,如果需要使用在研究中使用BOG,需要有商用的Microsoft Word插件。 3.2.2 機器學習方法一些研究使用監(jiān)督機器學習來解決傳統(tǒng)方法的缺點。研究人員使用帶有可讀性分數(shù)標記的訓練數(shù)據(jù)來訓練模型,然后用訓練的模型來分析文本。 例如,Petersen and Ostendorf (2009), Vajjala and Meurers (2012)以及Madrazo Azpiazu and Pera (2020) 使用傳統(tǒng)的機器學習模型將文本轉(zhuǎn)換為一組可讀性特征的集合,包括傳統(tǒng)特征(如FOG)、衡量語篇連貫和銜接的話語特征、一個詞的常用程度等。 該方法的一個主要缺點是可能無法推廣到不同的背景(例如,維基百科文本、美國SEC文件、財報會議)和不同的受眾(例如,高中生與博士生,經(jīng)驗豐富與經(jīng)驗匱乏的投資者)。Martin et al. (2021) 提出了一種基于深度學習的無監(jiān)督方法,并證明他們這種方法生成的可讀性指標在分析不同的語料時比傳統(tǒng)的可讀性指標有更一致的表現(xiàn)。 3.3 披露相似度 (Disclosure Similarity)余弦相似度是衡量披露相似度的最常見方法之一(Schütze et al. 2008)。計算余弦相似度的傳統(tǒng)方法是用詞袋法表征每個文檔,接近1的值表示高度相似,而接近0的值表示低相似。 基于BOW的計算方式十分直觀,在精確匹配中表現(xiàn)出色,例如剽竊檢測和對文檔的逐年修改(比如上市公司年報);問題在于,該方法將所有單詞視為相互獨立,而不考慮單詞之間的語義關系,這樣,當這一方法面對兩個形式上不同但表意相同的句子時會顯得乏力?;贐OW的計算有兩種加權方式。一是使用原始單詞計數(shù),即詞頻(term frequency weighting, tf),二是使用詞頻-逆向文件頻率(term frequency–inverse document frequency, tf-idf),它降低了在文本庫中普遍存在的單詞的權重,從而結(jié)合了整個文本庫的信息(Salton和Buckley 1988)。有多項會計研究使用基于BOW的余弦相似性來檢驗公司披露的相似性或差異性(S. V. Brown and Tucker 2011; Peterson et al. 2015; S. V. Brown and Knechel 2016; S. V. Brown et al. 2018)。 將余弦相似度與詞嵌入相結(jié)合可以捕獲語義相似度。一些研究使用Word2Vec和Doc2Vec(擴展的Word2Vec)作為余弦相似度模型的輸入。 基于BOW的余弦相似度方法適用于研究人員對精確比較的需求,而詞嵌入的余弦相似度方法可以捕獲語義相似度。要根據(jù)研究實際來進行選擇。 3.4 前瞻性陳述 (Forward-looking Statements)前瞻性陳述是強制性披露的一部分,屬美國證券交易委員會(SEC)的規(guī)定,和中國資本市場的規(guī)定有異同。 研究人員常常需要根據(jù)句子在時間維度上的指向(過去、現(xiàn)在、未來)對句子進行分類。 3.4.1 字典法既然是分類,用標志詞來進行分類是最自然不過的想法,字典法于是再次派上用場。和前面[3.1.1節(jié)](#3.1.1字典法_(Dictionary)的做法相似,研究人員也通過先前構(gòu)建一個包含未來指向的詞語的字典,對文本進行分析。 這種方式仍然是簡單而有局限性的——尤其是在準確性上有很大犧牲。這種方式會導致很高的I類錯誤概率(S. V. Brown et al. 2021),也就是假陽性,把本不屬前瞻性陳述的句子標記為前瞻性陳述。 3.4.2 機器學習方法前瞻性陳述分類可以通過各種監(jiān)督機器學習模型來完成。S. V. Brown et al. (2021) 通過提供人工注釋的訓練數(shù)據(jù)來微調(diào)預訓練的CNN模型,其算法在88.2%的時間里正確地識別出一個句子是否是前瞻性的,而使用Bozanic et al. (2018) 的最佳可用詞典的字典方法的準確率為73.4%。 3.5 主題探索對于關注某個話題的文本而言,一些詞語會在文本中頻繁出現(xiàn),例如,“廣告”這一主題的文本會頻繁使用“顧客”“滿意度”“市場營銷”等詞匯。主題發(fā)現(xiàn)是將單詞分組到主題中來總結(jié)文檔。 最常見的主題模型是LDA,它最初用于BOW文本表示方法下的單個單詞計數(shù)。Campbell et al. (2014) 首次在會計中使用LDA,以衡量公司風險披露的數(shù)量。A. Huang et al. (2018)、Dyer et al. (2017)、N. C. Brown et al. (2020)均使用了LDA進行研究探索。6.2節(jié)會進一步介紹這一方面的最新進展。 四、構(gòu)建基于文本的測量的效度會計研究人員通常使用文本分析來創(chuàng)建一個度量,將不能直接觀察到的概念或特征可操作化。于是,說明文本分析所創(chuàng)造的度量的效度就至關重要。 4.1 由字典法構(gòu)建的度量的效度大多數(shù)情況下,研究人員必須建立自己的詞典,或者根據(jù)自己的情況修改詞典。在這種情況下,研究人員應該首先驗證他們所使用詞典的有效性。最好的情況是已經(jīng)有現(xiàn)有詞典可供使用,而不必自己建立詞典。 Carrizosa and Ryan (2017) 在其研究中需要使用單詞和上下文來識別貸款合同是否包含一種特定契約。他們在建立詞典和識別后,將識別結(jié)果與另一個隨機選擇子樣本的人工識別結(jié)果進行比較,并調(diào)整字典,直到達到所需的準確性。這種做法值得借鑒。文章建議研究人員通過其他人來檢查其測量的內(nèi)容有效性。這里的“其他人”可以是研究助理,也可以是實驗的對象。比如,Bonsall et al. (2017) 通過MTurk員工對致股東的信件的可讀性進行評級,Muslu et al. (2015) 要求MBA學生在50個隨機選擇的MD&A披露中識別前瞻性句子。 4.2 由監(jiān)督機器學習方法構(gòu)建的度量的效度監(jiān)督式機器學習有一個內(nèi)置的驗證機制。帶注釋的訓練數(shù)據(jù)集通常分為訓練、驗證和測試樣本。 l 訓練樣本(training sample)用于擬合模型并確定代表數(shù)據(jù)關系的權重。 l 驗證樣本(validation sample)是用于評估擬合模型預測樣本外觀測值的能力的保留樣本。 l 測試樣本(testing sample)是在所有訓練完成后評估模型性能的另一個保留樣本。 研究人員調(diào)整模型的超參數(shù),迭代使用訓練樣本和驗證樣本,直到模型達到預期表現(xiàn),此時模型為最終模型。然后進一步對測試樣本中的未見數(shù)據(jù)使用最終模型,并將其測量結(jié)果與通過人工判斷形成的結(jié)果進行比較,據(jù)此評估內(nèi)容效度。 l F-Score是精準率和召回率的加權平均。許多研究使用F1-Score,這是精準率和召回率的調(diào)和平均(harmonic mean),越接近1,則模型在兩方面的綜合表現(xiàn)越好。 在訓練-驗證-測試之外,K折交叉驗證(K-fold cross validation)也通常用于傳統(tǒng)的機器學習。交叉驗證是把樣本數(shù)據(jù)進行不同的切分,形成不同的訓練集和測試集。在K折交叉驗證中,訓練數(shù)據(jù)被隨機分成K等份,然后進行K次實驗,每次保留一部分用于樣本外測試,剩余的K?1部分用于訓練,最終評估結(jié)果是K次實驗的平均值。這種方法對于小樣本特別有用,因為所有的訓練觀察值都參與模型學習,且可以顯示模型是否對訓練樣本的隨機性敏感。 需要注意的是,監(jiān)督式機器學習依賴于樣本標注,所以標注的質(zhì)量對于所產(chǎn)生的度量的內(nèi)容有效性非常重要。否則,垃圾輸入將導致垃圾輸出(Geiger et al. 2021)。對樣本進行標記的人可以是研究人員自己,可以是研究助理,也可以是其他人(例如通過在線平臺等方式招募第三方注釋者)。文章建議至少使用兩名人工標注員,以便評估注釋的一致性。一條經(jīng)驗法則是,對于二元分類,兩個標注員之間的一致性要達到80%。標注員的判斷分歧可以讓研究人員理解算法難以區(qū)分的情況,畢竟,如果某個樣本對人類而言判斷困難,那么對機器來說可能也很困難。這樣,研究人員可以調(diào)整模型訓練目標或針對這種挑戰(zhàn)性案例提供更多的訓練觀察。 人工標注樣本可能很昂貴;同時,人工標注樣本雖然精確、詳細,適合研究人員的設置,但比較主觀的,其他人很難復制,可能導致樣本小,從而導致訓練無效(Frankel et al. 2021)。“間接注釋”的方法可能很有效,同時也可能會帶來文本信息以外的其他信息,使內(nèi)容更加豐富。例如,一些研究使用從金融數(shù)據(jù)中收集的變量來標記訓練數(shù)據(jù)中的輸出變量(Siano and Wysocki 2021; Frankel et al. 2021)。 4.3 由無監(jiān)督機器學習方法構(gòu)建的度量的效度無監(jiān)督機器學習通常用于發(fā)現(xiàn)未標記數(shù)據(jù)中的隱藏模式,輸出的是數(shù)據(jù)分組或聚類,而非單一度量。效度代表著這些分組、聚類是否代表了研究者感興趣的概念。由于無監(jiān)督機器學習的輸出是多維而非單一的,因此建構(gòu)效度更具挑戰(zhàn)性。 研究人員可以采用三步走的方式來建立效度: l 表面效度(face validity)。研究人員可以檢查與聚類相關的最常見的單詞或短語,并檢查它們是否具有語義一致性。 l 聚合效度(convergent validity)。研究人員可以選擇某些聚類,并檢查它們是否在包含預計會影響這些聚類的重要經(jīng)濟事件的時期發(fā)生變化,或者將聚類與捕獲類似結(jié)構(gòu)的變量關聯(lián)起來。 l 區(qū)分效度(discriminant validity)。研究人員可以要求其他人員進行“單詞入侵”(“word intrusion”)檢查。也就是說,為檢查人員提供每個聚類的單詞列表(一個單詞在給定聚類中的概率很低,但在不同聚類中的概率很高,而其余單詞在給定聚類中的概率很高),并要求他們識別低概率出現(xiàn)的單詞。 研究人員還可以要求其他人員在一小部分隨機選擇的文檔中識別聚類,然后將結(jié)果與無監(jiān)督學習的輸出進行比較。這種方式需要大量人力。 五、指引:如何在研究中使用文本分析方法本節(jié)討論文本數(shù)據(jù)采集和預處理,模型選擇,以及實現(xiàn)機器學習方法的關鍵步驟。原文5.4節(jié)及附錄部分推薦了編碼和數(shù)據(jù)資源。 5.1 文本數(shù)據(jù)的獲取和預處理文本數(shù)據(jù)的獲取 研究人員通常要根據(jù)特定的網(wǎng)站和數(shù)據(jù)格式自己編寫網(wǎng)絡抓取代碼,同時應確保原始數(shù)據(jù)的獲取符合相關法律和限制。文本文檔的格式多種多樣,包括純文本、HTML和PDF等;文檔的標記、特殊符號、圖像、表格可能都需要作為文本內(nèi)容。 預處理 這可能比正式進行文本分析花費更多的時間。文本預處理過程常常包括: l 刪除HTML標記和非文本字符; l 將文本轉(zhuǎn)換為更小的文本單元(例如,單個單詞、單詞組合或句子); l 刪除最小長度標準以下的文檔; l 檢查拼寫錯誤; l 確保特殊符號(例如撇號和連字符)正確編碼; l 如果分析需要以單個單詞為單位,則需要刪除停頓詞(例如,“a” “the”和“in”)以免單詞量過大,同時進行詞干提取(stem)和詞形還原(lemmatize) (例如“increases”→“increase”、“agreement”→“agree”)。 要注意的是,上面進行刪除和變換操作有時反而會起到副作用,比如,如果研究人員對確定所用的時態(tài)或捕捉寫作風格感興趣,那么保留原始文本結(jié)構(gòu)就很重要;有時這種處理是沒必要的,例如使用詞嵌入作為NLP輸入、使用tf-idf加權、使用深度學習模型(如BERT,其可以處理子詞(subword))。 5.2 選擇合適的模型選擇模型需要考慮五個因素: (1) 功能性(functionality)。模型是否能夠?qū)崿F(xiàn)預期要求。例如,如果需要考察披露信息中單詞的精確相似度,那么BOW余弦相似度模型是最好的,機器學習模型就不適用了。 (2) 簡單性(simplicity)。如果多個模型都能達到目的,則首選最簡單的模型。只有當能實現(xiàn)更大收獲時,才應該選擇更復雜的模型。 (3) 研究人員對技術的熟悉程度(familiarity)。研究人員可能已經(jīng)熟悉了各種傳統(tǒng)的機器學習方法,在已經(jīng)熟悉的情況下,針對研究實際進行改進和跟進最新進展耗費精力較小,相對也更容易開展工作。 對不熟悉傳統(tǒng)機器學習模型的研究人員來說,深度學習是一個很好的起點,原因在于(i)它是圍繞同一中心模型結(jié)構(gòu)(ANN)的一組變化,因此更容易作為一個整體掌握,而傳統(tǒng)的機器學習是許多不同的模型結(jié)構(gòu);(ii)深度學習通常比傳統(tǒng)的機器學習在文本數(shù)據(jù)上表現(xiàn)得更好;(iii)由于模型結(jié)構(gòu)有利于遷移學習,所有深度學習方法都存在預訓練模型,這極大便利了研究人員。 (4) 模型的表現(xiàn)(model performance)。 (5) 計算成本(computing costs)。與傳統(tǒng)的機器學習模型相比,訓練深度學習模型需要更多的計算能力。不過,一般的會計研究人員要在預訓練的深度學習模型和從頭開始訓練的傳統(tǒng)機器學習模型之間做出選擇,畢竟兩者都需要很大的計算成本。 5.3 監(jiān)督機器學習的實施研究人員必須在剛開始時就決定是使用監(jiān)督學習還是非監(jiān)督學習,以及感興趣的輸出變量是連續(xù)的還是分類的。 5.3.1 對樣本的標注有兩種主要的離散注釋類型:分類(classification)和命名實體識別(named entity recognition, NER)。分類在技術上更加容易實現(xiàn),雖然人工進行分類并沒有那么容易。命名實體是文檔中的一個或多個單詞,它們代表了現(xiàn)實世界中的實體(例如人、地理位置或組織);機器根據(jù)人的標注來識別出這些實體,并且嘗試總結(jié)學習過程,以發(fā)現(xiàn)后續(xù)其他的命名實體。 對樣本的標注可以由其他人來完成,但研究人員了解熟悉標注的情況是大有裨益的。 5.3.2 訓練數(shù)據(jù)大小和樣本分割由于人工標注數(shù)據(jù)的成本很高,監(jiān)督學習模型的一個關鍵是確定標注數(shù)據(jù)的最優(yōu)數(shù)量。如果標注太多,所需成本高昂;如果標注數(shù)據(jù)太少,則實證結(jié)果的效力有限。簡單的任務需要的訓練樣本量小(比如通過正則表達式進行關鍵詞檢索,可能只需要幾百個樣本就夠了),而復雜的任務所需要的訓練樣本量大(比如情感分析可能需要幾千個實例來調(diào)試模型)。如果一個模型所需要的訓練樣本量多于5000個,那可能是因為任務太過復雜,需要簡化,畢竟如果一個任務對人而言是有挑戰(zhàn)性的,那對于機器而言也是有挑戰(zhàn)性的(機器只不過是做了編碼工作,代替了人類的輸入輸出過程而已)。 在為標注準備樣本時,一個重要的因素是對于每一種類都有足夠的樣本量支撐(比如要進行情感分析,那么情感正面、負面、中性的樣本都要有)。對于非平衡的數(shù)據(jù)要進行分層抽樣,每層都要能夠充分代表一個種類。 可以先從標注一小部分數(shù)據(jù)開始,找到一點感覺;下一步可以對每一層標注一小部分樣本。將這兩步標注的數(shù)據(jù)集中起來訓練模型,然后評估模型的效度。繼續(xù)標注、訓練、評估,直到模型表現(xiàn)令人滿意為止。 訓練數(shù)據(jù)分為訓練樣本、驗證樣本和測試樣本(見[4.2節(jié)]),占比一般為2:1:1,但這種比例下驗證和測試樣本可能過大,特別是在樣本量大的情況下(Aggarwal 2018, 222)。樣本量小的情況下,可能直接省去測試樣本。此外,一些研究人員最后還會使用所有樣本來對模型進行一次訓練,以最大化使用數(shù)據(jù),而另一些研究人員則傾向于僅使用訓練樣本來調(diào)試模型。 六、未來的機遇6.1 深度學習激發(fā)新的研究可能深度學習提供了無限可能。一方面,無監(jiān)督深度學習可能會學習到研究人員從未見過或者想到過的模式,發(fā)現(xiàn)研究人員從未了解過的概念,突破研究人員的局限;另一方面,監(jiān)督式深度學習可以采用相對較小的手工標注樣本,學習復制人類做事的方式,并將其擴展到更大的文本樣本,省時省力。 l 研究人員常常使用企業(yè)的運營分部(operating segment)和地區(qū)分部(geographic segment)來表示業(yè)務復雜性和地區(qū)復雜性,但不是所有公司都以相同的方式和“顆粒度”報告它們的分部。文本分析可以提供另一種量化公司業(yè)務或地區(qū)多樣性的方法,比如使用NER技術識別,并進一步標記為細分類型(如將位置進一步標記為配送中心、衛(wèi)星辦公室、商店、競爭對手位置等)。 l 統(tǒng)計監(jiān)管文件中與“競爭”相關的單詞經(jīng)常被用作感知競爭水平的代理變量(F. Li et al. 2013)。使用NER等技術對所研究公司提到的同行業(yè)公司進行分析,可以獲得更精確的結(jié)果,并可以進一步標記為細分類型(該競爭屬于勞動力、產(chǎn)品、供應商市場的競爭還是其他)。同樣地,對于企業(yè)正遭受的風險,也可以標記為細分類型。 l 深度學習還可以幫助提取數(shù)據(jù)。例如使用XBRL數(shù)據(jù)訓練模型,從公司的披露信息中提取特定信息;在財務報告中提取風險因素、從管理層討論與分析(MD&A)中提取關于流動性相關的因素。 6.2 公司信息披露的主題分析強制性和自愿性公司信息披露在會計研究中一直備受關注,披露的主題分析能夠提供新的觀點。目前,LDA是最流行的主題分析模型,但有三個缺點:(1) 使用BOW作為輸入,導致詞匯量大,計算成本高;(2)模型產(chǎn)生的主題通常無法對研究有幫助,并且由于模型是無監(jiān)督的,因此不能保證發(fā)現(xiàn)特定的主題。(3) LDA產(chǎn)生的主題可能難以被解釋或應用于標注。 為了克服(1)的問題,Dieng et al. (2020)開發(fā)了嵌入式主題模型(ETM),使用詞嵌入作為LDA的輸入。詞嵌入(如Word2Vec;也可以用Doc2Vec和Topic2Vec)不僅降低了高維問題,而且還表示了詞的語義。結(jié)構(gòu)主題模型允許包含作為一種“固定效應”的協(xié)變量,以便主題可以與非文本信息關聯(lián)起來(Roberts et al. 2013)。 對于(2)(3)的問題,可以預先分組成感興趣主題的單詞來對初始主題進行引導 (Jagarlamudi et al. 2012),但這樣仍然不能保證預先分組的感興趣的主題能夠保留在最終模型中。此外,研究者還可以約束主題模型,只發(fā)現(xiàn)與研究者提供的標簽集相對應的主題,這種方法被稱為標簽LDA(Labeled LDA; Ramage et al. 2009)。如果主題發(fā)現(xiàn)的目標是預測結(jié)果變量,那么可以應用監(jiān)督LDA(supervised LDA, sLDA; Blei and McAuliffe 2007),在這個模型中,每個主題的權重由機器根據(jù)訓練數(shù)據(jù)確定。也有研究將LDA與信息論中的KL散度(Kullback-Leibler (KL) divergence)結(jié)合在一起來標記主題(Lowry et al. 2020)。 七、結(jié)語文章在一個統(tǒng)一的框架內(nèi)討論了可用的NLP方法,并討論了這些技術在會計研究中的可能應用場景。 文本分析在會計研究應用的比例正在持續(xù)增長。在研究時,要花時間去了解這些前沿技術以及它們可以實現(xiàn)的功能,跟上研究最新進展。前沿的NLP方法(如深度學習和主題建模)可能會推動會計研究的前沿發(fā)展。 通過分析文本數(shù)據(jù),可以識別披露中的情緒、語氣、前瞻性信息等,從而更全面地評估企業(yè)的風險和機遇。深度學習等新技術可以幫助研究者分析文本數(shù)據(jù)中的復雜語義關系,例如識別披露主題,從而回答之前無法回答的問題。機器學習等模型可以自動處理大量文本數(shù)據(jù),如果能夠很好地調(diào)試模型,模型將能夠節(jié)省研究者大量的人力成本和時間,而且可能取得更加精確、有用的結(jié)果。 應用文本分析技術需要在文本輸入、模型調(diào)試等方面細致認真。在文本方面,要確保文本數(shù)據(jù)的準確性和一致性,并進行必要的預處理;在模型方面,要根據(jù)研究目標和數(shù)據(jù)特點選擇合適的文本分析模型,并且要建立效度,對輸出結(jié)果做合理解釋。 一般而言,文本分析是用來構(gòu)建新的代理變量而非直接用于假設驗證,所以一般不會有“黑箱”問題;文本分析與計量經(jīng)濟學方法結(jié)合起來時,能夠提供較強的置信度。另外需要注意,對于我們自身的研究而言,在初次接觸、應用文本分析的時候,復雜技術可能占用我們過多的注意力。我們?nèi)匀粦搶W⒀芯繂栴},而非沉迷于技術本身,除非是做方法論研究。
下面這些短鏈接文章屬于合集,可以收藏起來閱讀,不然以后都找不到了。 7年,計量經(jīng)濟圈近2000篇不重類計量文章, 可直接在公眾號菜單欄搜索任何計量相關問題, Econometrics Circle |
|
來自: 計量經(jīng)濟圈 > 《待分類》