【原】如何在實(shí)證研究中操縱結(jié)果而不被發(fā)現(xiàn)？

計(jì)量經(jīng)濟(jì)圈 2022-03-22

展開全文

如何在實(shí)證研究中操縱結(jié)果而不被發(fā)現(xiàn)？

作為科學(xué)研究過程，當(dāng)然都不要操縱實(shí)證結(jié)果，盡管人人都有操縱的沖動

正文

關(guān)于下方文字內(nèi)容，作者：廖小萱，廣東外語外貿(mào)大學(xué)金融學(xué)院/中國人民大學(xué)應(yīng)用經(jīng)濟(jì)學(xué)院，通信郵箱：xiaoxuan1223@outlook.com

1.因子模型及其在計(jì)量經(jīng)濟(jì)學(xué)學(xué)習(xí)中應(yīng)用的最新研究進(jìn)展, 2萬字頂刊綜述，2.實(shí)證橫截面資產(chǎn)定價(jià)最新進(jìn)展, 2.5萬字頂刊最全綜述，3.TOP5刊, 我國政府為什么對金融市場進(jìn)行定期和密集的干預(yù)？

Todd Mitton, Methodological Variation in Empirical Corporate Finance, The Review of Financial Studies, Volume 35, Issue 2, February 2022, Pages 527–575.
I document large variation in empirical methodology in corporate finance regressions in top finance journals. Although methodological variation allows for customization of empirical tests to fit specific theories, it can also enable excessive reporting of statistically significant results. For example, given discretion over 10 routine methodological decisions, a researcher could report that over 70% of randomly generated variables are statistically significant determinants of leverage at the 5% level. The methodological decisions that affect statistical significance the most are dependent variable selection, variable transformation, and outlier treatment. I discuss remedies that can mitigate the negative effects of methodological variation.

還記得這個(gè)么？常用的12種調(diào)變量顯著性或調(diào)星星的方法

。

實(shí)證公司金融中的方法差異，文章來自于金融學(xué)Review of Financial Studies期刊上。

摘要

我記錄了頂級金融期刊中公司金融回歸的實(shí)證方法的巨大差異。盡管方法差異（methodological variation）允許定制實(shí)證檢驗(yàn)以適應(yīng)特定的理論，但它也可能使統(tǒng)計(jì)意義上的結(jié)果被過度報(bào)告。例如，考慮到對10項(xiàng)常規(guī)方法決策的自由裁量權(quán)，研究人員可以報(bào)告，在5%的水平上，超過70%的隨機(jī)生成變量是杠桿率的統(tǒng)計(jì)顯著決定因素。對統(tǒng)計(jì)顯著性影響最大的方法決策是因變量選擇、變量轉(zhuǎn)換和異常值處理。我討論了可以減輕方法差異負(fù)面影響的補(bǔ)救措施。

1.論文精要與結(jié)構(gòu)

本文著眼于由于研究者的選擇方法（p-hacking）和發(fā)表偏見（publication bias）導(dǎo)致的方法差異對公司金融研究的影響。

首先，本文研究了文獻(xiàn)中使用和接受不同方法的程度。發(fā)現(xiàn)實(shí)證公司金融方法有很大差異：因變量的選擇缺乏標(biāo)準(zhǔn)化、控制變量的使用幾乎沒有一致性、其他方法決策，如是否將所有行業(yè)納入回歸和是否保留異常值也缺乏一致性。方法的差異一方面可以更精確地定制實(shí)證檢驗(yàn)，另一方面如果選擇方法沒有理論指導(dǎo)，而是隨機(jī)或策略性的，則會導(dǎo)致發(fā)表偏見。

其次，本文研究了方法差異如何影響因素系數(shù)的顯著性。具體方法是先進(jìn)行常規(guī)回歸，再在其他方法不變下，改變一個(gè)方法進(jìn)行回歸。報(bào)告了每項(xiàng)方法決策下變量（隨機(jī)/準(zhǔn)隨機(jī)/文獻(xiàn)）的t統(tǒng)計(jì)量的平均變化。討論了統(tǒng)計(jì)顯著性對方法論的敏感性。

最后，本文討論了因方法差異而導(dǎo)致的統(tǒng)計(jì)顯著性過度報(bào)告的補(bǔ)救措施，如穩(wěn)健性檢驗(yàn)、規(guī)范檢查、更多關(guān)注經(jīng)濟(jì)意義。

2.引言

在實(shí)證公司金融領(lǐng)域，研究人員會做出許多常規(guī)的方法決策，這些決策會影響他們研究結(jié)果的重要性和統(tǒng)計(jì)顯著性。理想情況下，研究人員在制定方法論決策時(shí)，會受到理論的指導(dǎo)，但當(dāng)理論沒有規(guī)定使用某一特定方法時(shí)，研究人員往往必須從文獻(xiàn)中廣泛使用和接受的多種方法中進(jìn)行選擇。當(dāng)研究人員對方法決策有自由裁量權(quán)時(shí)，發(fā)表的論文可能代表了從許多可能的方法中選擇所用方法的結(jié)果，以便報(bào)告具有統(tǒng)計(jì)顯著性的結(jié)果。在研究過程中，有統(tǒng)計(jì)顯著性的結(jié)果可以在兩個(gè)層面上選出現(xiàn)發(fā)表偏見：研究人員之間和出版商之間。

在第一個(gè)層面上，研究人員可以通過選擇方法來選擇具有統(tǒng)計(jì)顯著性的結(jié)果，這些方法允許他們報(bào)告所需的重要發(fā)現(xiàn)——這種做法有時(shí)被稱為“p-hacking”。最近的許多論文都提醒人們注意資產(chǎn)定價(jià)文獻(xiàn)中p-hacking的可能性，重點(diǎn)關(guān)注橫截面回報(bào)異常，以及它們?nèi)绾谓?jīng)得起復(fù)制、樣本外檢驗(yàn)或多假設(shè)檢驗(yàn)。本文的重點(diǎn)是公司金融文獻(xiàn)，這些問題仍然相對未被探索。

在第二個(gè)層面上，出版商可以通過對發(fā)表報(bào)告重要發(fā)現(xiàn)的論文保持偏見來選擇具有統(tǒng)計(jì)顯著性的結(jié)果。Kim和Ji（2015）、Harvey、Liu和Zhu（2016）、Harvey（2017）以及Morey和Yadav（2018）記錄并討論了金融期刊如何傾向于發(fā)布具有統(tǒng)計(jì)顯著性的結(jié)果。當(dāng)出版商有偏見時(shí)，即使沒有研究人員參與p-hacking，方法上的差異可能會導(dǎo)致誤導(dǎo)的顯著性結(jié)果的研究的發(fā)表。換句話說，即使所有研究人員都是道德的、勤奮的、透明的，方法上的差異也是有問題的。如果多個(gè)研究人員獨(dú)立研究同一個(gè)假設(shè)，每個(gè)研究人員使用不同的方法，那么基于產(chǎn)生顯著結(jié)果的方法的研究結(jié)果可能會被公布，而其他同樣有效的但不顯著的研究結(jié)果仍然未知（Denton, 1985；Gelman and Loken, 2014）。事實(shí)上，研究人員甚至可能不會提交結(jié)果在統(tǒng)計(jì)學(xué)上不顯著的論文，因?yàn)樗鼈儾惶赡馨l(fā)表或引用，這被稱為“文件抽屜（file drawer）問題”的效應(yīng)（Rosenthal, 1979）。當(dāng)文章的讀者不知道在研究過程中由于p-hacking或發(fā)表偏見而被丟棄的其他發(fā)現(xiàn)時(shí)，他們對發(fā)現(xiàn)的重要性和穩(wěn)健性的推斷可能會被高度扭曲。

在本文中，我評估了方法差異對公司金融研究的影響。首先，我研究文獻(xiàn)中使用和接受不同方法的程度。在2000年至2018年間排名前三的金融期刊中，我在604篇文章中發(fā)現(xiàn)了954個(gè)回歸，其中因變量是研究的最常見的公司金融結(jié)果之一：盈利能力、公司價(jià)值、杠桿、投資、支出或現(xiàn)金持有。（給定文章中同一類別的所有回歸都算作一個(gè)回歸。）在樣本期內(nèi)，TOP3期刊中這類回歸的發(fā)生率大大增加，從2000年的8個(gè)回歸到2018年89個(gè)回歸。我研究回歸樣本并記錄與樣本選擇（sample selection）、變量轉(zhuǎn)換（variable transformation）和模型規(guī)范（model specification）相關(guān)的常見決策中使用的方法。

我的研究結(jié)果表明，實(shí)證公司金融在方法上存在很大差異。變異性的一個(gè)關(guān)鍵來源是因變量選擇缺乏標(biāo)準(zhǔn)化。例如，研究人員使用了61個(gè)獨(dú)特（unique）的盈利能力指標(biāo)作為因變量，包括26個(gè)獨(dú)特的資產(chǎn)回報(bào)率（ROA）定義。我發(fā)現(xiàn)其他類型的回歸也有類似的可變性，杠桿回歸的獨(dú)特因變量最多（96），現(xiàn)金回歸的獨(dú)特因變量最少（9）。我還發(fā)現(xiàn)，替代因變量之間的相關(guān)性通常不是很高。每個(gè)類別中最常見的10個(gè)因變量之間的中位數(shù)相關(guān)性為0.33，這表明因變量選擇通常會對回歸結(jié)果產(chǎn)生很大影響。

方法差異的另一個(gè)來源是控制變量包含（control variable inclusion）。例如，在價(jià)值回歸中（例如，以托賓q為因變量），公司規(guī)模是一個(gè)單獨(dú)的控制變量，通常用于樣本中84%的價(jià)值回歸。即便如此，在衡量企業(yè)規(guī)模時(shí)，資產(chǎn)、銷售額或其他方面也存在很大差異。一些控制變量如投資、杠桿率和盈利能力大約有一半的時(shí)間包含在內(nèi)，其他控制變量偶爾也包含在內(nèi)?？偟膩碚f，我發(fā)現(xiàn)，在任何回歸的類別中，控制變量的使用都沒有什么一致性。

我還記錄了其他方法決策缺乏一致性。例如，研究人員在大約一半的時(shí)間里將所有行業(yè)納入回歸，在大約一半的時(shí)間里將某些行業(yè)（如金融公司）排除在外。在整個(gè)樣本期內(nèi)，研究人員保留異常值的頻率與他們縮尾處理（winsorize）異常值的頻率大致相同，在處理異常值時(shí)，他們使用了各種截止值（cutoffs）。我還報(bào)告了滯后變量（lagging variables）、將連續(xù)變量轉(zhuǎn)換為虛擬變量、變量取對數(shù)（logging variables）和定義行業(yè)方面的方法差異。對于一些決策，例如異常值處理，隨著時(shí)間的推移，對方法論的共識似乎正在建立，但對于大多數(shù)決策，我發(fā)現(xiàn)文獻(xiàn)中沒有達(dá)成共識的趨勢。

綜上所述，我的研究結(jié)果表明，研究人員在進(jìn)行實(shí)證檢驗(yàn)時(shí)有多種方法可供選擇。一方面，這種方法上的差異可能對研究人員有所幫助，使他們能夠更精確地根據(jù)正在檢驗(yàn)的理論定制實(shí)證檢驗(yàn)。例如，數(shù)據(jù)庫技術(shù)可以幫助計(jì)算機(jī)研究人員探索公司金融和經(jīng)營業(yè)績的復(fù)雜細(xì)節(jié)。在某種程度上，研究人員基于理論的決策，觀察到的方法差異可能是完全合適的。另一方面，如果研究人員在選擇方法時(shí)沒有理論指導(dǎo)，如果方法是隨機(jī)選擇的（甚至是策略性選擇的），那么方法上的變異會導(dǎo)致選擇性報(bào)告，這是由于p-hacking和發(fā)表偏見造成的。為了理解方法論在多大程度上受到理論考慮的指導(dǎo)，我搜索了604篇文章的樣本，以解釋為什么要做出方法論決策。我發(fā)現(xiàn)，作者通常會對關(guān)鍵決策不予解釋。例如，作者們在22%的時(shí)間里解釋了他們選擇因變量的原因，在6%的時(shí)間里解釋了他們處理異常值的方法，在19%的時(shí)間里解釋了為什么他們將連續(xù)變量轉(zhuǎn)換為虛擬變量。盡管研究人員在做出某些決策時(shí)可能沒有明確的理論動機(jī)，但現(xiàn)有證據(jù)表明，大多數(shù)方法論決策都是在沒有理論指導(dǎo)的情況下做出的。

接下來，研究方法變量如何影響盈利能力、公司價(jià)值、杠桿、投資、支出或現(xiàn)金持有的假設(shè)決定因素系數(shù)的統(tǒng)計(jì)顯著性。我的程序是首先使用最常用的方法，將一個(gè)結(jié)果變量回歸到一個(gè)假設(shè)的決定因素上。然后，我改變一個(gè)二元方法論決策，同時(shí)將所有其他決策保持在最常用的方法論，并重復(fù)回歸。我對14個(gè)不同的決定做了這項(xiàng)研究，我記錄了假設(shè)的決定因素的t統(tǒng)計(jì)量隨著方法的每次變化而變化的程度。通過對大量假設(shè)的決定因素重復(fù)這個(gè)過程，我可以估計(jì)決策對解釋變量統(tǒng)計(jì)顯著性的平均影響。

在我的第一組檢驗(yàn)中，“假設(shè)”的決定因素是純粹的隨機(jī)正態(tài)分布變量。對于每一類回歸，我隨機(jī)生成1000個(gè)解釋變量，并檢驗(yàn)每個(gè)變量對統(tǒng)計(jì)的影響。我報(bào)告了每項(xiàng)方法決策的1000個(gè)變量的t統(tǒng)計(jì)量的平均變化。請注意，t統(tǒng)計(jì)量的平均變化取決于每個(gè)方法差異對回歸基礎(chǔ)數(shù)據(jù)的破壞程度。我表明，在理論上，對于隨機(jī)生成的解釋變量，t統(tǒng)計(jì)量的預(yù)期變化可能高達(dá)1.13（對于破壞性變化）或低至0.00（對于無害變化）。例如，如果（而不是方法上的典型變化）原始解釋變量被一個(gè)全新的隨機(jī)生成變量替換，則t統(tǒng)計(jì)量的平均變化預(yù)計(jì)約為1.13。相比之下，對于一個(gè)非常微小的變化，例如將解釋變量四舍五入到小數(shù)點(diǎn)后第二位，t統(tǒng)計(jì)量的平均變化預(yù)計(jì)約為0.00。在我的檢驗(yàn)中，實(shí)際的方法決定在這個(gè)范圍內(nèi)有不同的影響。例如，異常值處理是一個(gè)非常具有破壞性的決定。在盈利能力回歸（profitability regressions）中，縮尾處理（winsorize）或保留異常值的決定平均將t統(tǒng)計(jì)量改變1.11，這意味著異常值處理對回歸的破壞性幾乎與非解釋性變量產(chǎn)生的破壞性一樣。因變量選擇也非常具有破壞性；在盈利能力回歸中，將因變量從最常用的ROA指標(biāo)改為最常用的股本回報(bào)率（ROE）指標(biāo)會使t統(tǒng)計(jì)量平均改變0.93。在規(guī)模的另一端，決定使用兩位數(shù)的SIC行業(yè)虛擬變量（industry dummies）或Fama-French行業(yè)虛擬變量對t統(tǒng)計(jì)數(shù)據(jù)的影響很小，盈利能力回歸平均為0.10。我使用其他類型的隨機(jī)生成變量——對數(shù)正態(tài)分布變量、虛擬變量和DID變量——重復(fù)這些檢驗(yàn)，并發(fā)現(xiàn)類似的結(jié)果。

我還使用準(zhǔn)隨機(jī)的“假設(shè)”決定因素重復(fù)這些檢驗(yàn)；我使用實(shí)際的Compustat數(shù)據(jù)創(chuàng)建解釋變量，但通過從隨機(jī)選擇的Compustat數(shù)據(jù)項(xiàng)創(chuàng)建比率變量（ratio variable），如Yan和Zheng（2017）以及Chordia、Goyal和Saretto（2020）中所述。在這些檢驗(yàn)中，由于Compustat數(shù)據(jù)項(xiàng)之間的潛在相關(guān)性，t統(tǒng)計(jì)量的預(yù)期變化上限不再是1.13，我的檢驗(yàn)表明，t統(tǒng)計(jì)量的變化遠(yuǎn)大于純隨機(jī)解釋變量的變化。例如，在盈利能力回歸中，將異常值縮尾處理平均改變t統(tǒng)計(jì)量12.86，將因變量從ROA改變?yōu)镽OE平均改變t統(tǒng)計(jì)量12.31。

我還使用文獻(xiàn)中的實(shí)際假設(shè)決定因素重復(fù)這些檢驗(yàn)，重點(diǎn)是杠桿作為因變量。我從以前的研究中收集了65個(gè)杠桿率的決定因素，并觀察了方法的改變?nèi)绾斡绊戇@些發(fā)現(xiàn)的統(tǒng)計(jì)顯著性。對t統(tǒng)計(jì)量的影響程度介于純隨機(jī)解釋變量和準(zhǔn)隨機(jī)統(tǒng)計(jì)變量之間。例如，對異常值進(jìn)行縮尾處理平均會使t統(tǒng)計(jì)量改變3.74，將因變量從賬面杠桿改變?yōu)槭袌龈軛U平均會使t統(tǒng)計(jì)量改變3.91。

接下來，我將記錄方法上的差異能在多大程度上促成具有統(tǒng)計(jì)學(xué)意義的發(fā)現(xiàn)。我考慮的是，如果研究人員對一組方法決策具有決定權(quán)，那么他(或一組獨(dú)立研究同一問題的研究人員)是否能夠證明，給定的解釋變量在統(tǒng)計(jì)上是一個(gè)重要的決定因素，例如，盈利能力。我首先表明，僅使用最常用的方法，純隨機(jī)解釋變量是隨機(jī)概率預(yù)測的重要變量：約10%的時(shí)間在10%顯著性水平上，5%的時(shí)間在5%水平上，1%的時(shí)間在1%水平上。然后我逐漸地允許方法上的自由裁量權(quán)。允許研究者使用最常見的因變量或第二常見的因變量的一個(gè)二元方法決定，給了研究者兩種方法組合的選擇，有了這種自由，研究人員可以報(bào)告隨機(jī)生成變量的統(tǒng)計(jì)顯著性，在10%的水平上有15%的時(shí)間，在5%的水平上有7%的時(shí)間，在1%的水平上有2%的時(shí)間（在所有類型的回歸中）。隨著更多方法上的自由裁量權(quán)被允許，這些百分比逐漸增加。當(dāng)研究人員對10個(gè)二元方法決策擁有自由裁量權(quán)時(shí)，94%的隨機(jī)生成變量在10%水平上具有顯著性，至少有一個(gè)方法組合，73%在5%水平上具有顯著性，23%在1%水平上具有顯著性。

顯著性假設(shè)的高百分比說明了統(tǒng)計(jì)顯著性對方法論的敏感性；然而，它們不應(yīng)被解釋為某一假設(shè)得到可信支持的可能性。防止報(bào)告虛假結(jié)果的保障措施包括穩(wěn)健性檢驗(yàn)（robustness checks）、編輯審查過程（editorial review process），以及可能會有脆弱的結(jié)果受到后續(xù)論文的挑戰(zhàn)。此外，研究人員可以通過使用多種方法來檢驗(yàn)一個(gè)假設(shè)來增加對他們發(fā)現(xiàn)的信心。盡管如此，考慮到10個(gè)二元決策只是研究人員可用方法的一小部分，這些結(jié)果表明，在判斷任何單一發(fā)現(xiàn)的統(tǒng)計(jì)顯著性時(shí)，需要非常謹(jǐn)慎。

最后，我討論了因方法差異而導(dǎo)致的統(tǒng)計(jì)顯著性過度報(bào)告的補(bǔ)救措施。穩(wěn)健性檢驗(yàn)是針對脆弱結(jié)果最常用的防御手段，我將說明它們在多大程度上限制了虛假顯著結(jié)果的報(bào)告。我關(guān)于哪些方法決策最具影響力的發(fā)現(xiàn)，為研究人員和審稿人員在評估穩(wěn)健性時(shí)應(yīng)該將注意力集中在哪里提供了指導(dǎo)。我還討論了穩(wěn)健性檢驗(yàn)可能存在的缺點(diǎn)。如果不加區(qū)別地使用，可能會導(dǎo)致假陰性結(jié)果。此外，穩(wěn)健性檢驗(yàn)的實(shí)踐往往沒有認(rèn)識到穩(wěn)健性通常是一個(gè)程度的問題。為了說明這一點(diǎn)，我使用512種最常見的方法組合檢驗(yàn)了65個(gè)提議的杠桿決定因素。我發(fā)現(xiàn)在所有512個(gè)規(guī)范中，65個(gè)建議的決定因素中只有一個(gè)具有統(tǒng)計(jì)顯著性（在10%或更高水平）。平均而言，每個(gè)決定因素在43%的規(guī)范中都是顯著的。這些發(fā)現(xiàn)表明，研究人員不應(yīng)該把重點(diǎn)放在捍衛(wèi)結(jié)果的穩(wěn)健性上，而應(yīng)該更多地理解為什么結(jié)果在某些規(guī)范中是穩(wěn)健性的，而在其他規(guī)范中不是。

標(biāo)準(zhǔn)穩(wěn)健性檢驗(yàn)的替代方法是同時(shí)報(bào)告各種方法可能性的結(jié)果，這種方法有時(shí)被稱為“規(guī)范檢查”（specification checks）。與穩(wěn)健性檢驗(yàn)相比，規(guī)范檢查有一定的優(yōu)勢：它們更系統(tǒng)化，它們可以同時(shí)展示沿多個(gè)維度改變方法的效果，并且可以簡潔地傳遞大量信息，通常是以圖形形式。為了證明這些優(yōu)勢，我給出了資本結(jié)構(gòu)（capital structure）文獻(xiàn)中的一些例子，這些例子以圖形方式說明了不同提議的決定因素的不同穩(wěn)健性模式。

另一項(xiàng)建議是，研究人員應(yīng)減少對統(tǒng)計(jì)顯著性的關(guān)注，而更多地關(guān)注結(jié)果的經(jīng)濟(jì)意義。除了能更好地表明實(shí)證結(jié)果的重要性外，經(jīng)濟(jì)意義不太容易受到規(guī)范搜索（specification searching）的影響。我還討論了其他幾種補(bǔ)救措施。總之，這些建議有助于減輕方法差異的負(fù)面影響。

3.方法差異綜述

為了更好地理解公司金融文獻(xiàn)中當(dāng)前的方法實(shí)踐，我調(diào)查了頂級金融期刊上的文章。公司金融中的回歸研究了各種各樣的因變量，我重點(diǎn)討論了文獻(xiàn)中報(bào)道的六種最常見的回歸類型：因變量為盈利能力、公司價(jià)值、杠桿、投資、支出或現(xiàn)金持有量的回歸。

3.1公司金融回歸樣本

我檢查了Journal of Finance, Journal of Financial Economics和Review of Financial Studies 2000年至2018年報(bào)道的六個(gè)常見類別的所有回歸。圖1顯示了六個(gè)類別中每年報(bào)告的回歸數(shù)。在這些統(tǒng)計(jì)數(shù)據(jù)中，特定類別的回歸（例如盈利能力回歸）在任何給定的文章中只計(jì)算一次，而不管文章中報(bào)告了多少不同的規(guī)范或穩(wěn)健性檢驗(yàn)。所有類別樣本中的回歸總數(shù)為954。圖1顯示，在這一時(shí)期，這些類型的回歸成為文獻(xiàn)中更重要的組成部分。2000年，所有六個(gè)類別加起來只報(bào)告了八次回歸。在隨后的幾年中，這些回歸的數(shù)量急劇增加，2017年和2018年每年都超過80次。

在此期間，這些期刊每年發(fā)表的論文總數(shù)從2000年的181篇增加到2018年的299篇。然而，即使用文章總數(shù)來衡量回歸數(shù)，所有類別的回歸發(fā)生率也增加了七倍多，從2000年的每篇文章0.04增加到2018年的每篇文章0.30。

圖表 1 頂級期刊中的公司金融回歸

Journal of Finance, Journal of Financial Economics和Review of Financial Studies上發(fā)表的文章中報(bào)告的公司金融回歸（所示類別）的數(shù)量，按年份分列。一篇文章中同一類別的多元回歸被視為一次回歸。

3.2因變量的可變性

雖然樣本中的每一個(gè)回歸都可以被劃分為一個(gè)特定的回歸類別，但每個(gè)類別中使用的因變量差異很大。不同測量方法的可用性有利于研究，因?yàn)橐蜃兞康倪x擇可以與被檢驗(yàn)的理論緊密一致。例如，研究人員進(jìn)行杠桿回歸的共同目標(biāo)是了解哪些因素會影響公司的債務(wù)使用，但根據(jù)具體情況，因變量可以從總債務(wù)比率、短期債務(wù)比率、長期債務(wù)比率等中選擇。然而，為因變量選擇分子和分母的靈活性也可能導(dǎo)致測量值的激增，超出了匹配每一個(gè)檢驗(yàn)理論背景所需的范圍。在本節(jié)中，我記錄了樣本中不同因變量的出現(xiàn)情況，并報(bào)告了替代因變量之間的相關(guān)性。

表1報(bào)告了樣本中回歸中因變量使用的統(tǒng)計(jì)數(shù)據(jù)。對于每一類回歸，列出了10個(gè)最常見的因變量，以及每個(gè)因變量的出現(xiàn)次數(shù)和占總出現(xiàn)次數(shù)的相應(yīng)百分比。在這10種措施的下面，我報(bào)告了文獻(xiàn)中也使用的其他獨(dú)特措施的數(shù)量。因變量之間的一些差異沒有反映在表1中，包括因變量是否經(jīng)過行業(yè)調(diào)整或一階差分。

表格 1 實(shí)證公司金融的當(dāng)前實(shí)踐：因變量

3.2.1替代因變量的相關(guān)性

表1展示了所使用的各種因變量，但如果備選方案高度相關(guān)，則因變量的選擇可能不會顯著改變回歸結(jié)果。表2中報(bào)告了最常用的獨(dú)立變量之間的相關(guān)性。表格顯示，盡管某些因變量高度相關(guān)，但總體而言，替代因變量之間的相關(guān)性并不特別高，表2中所有相關(guān)性的中位數(shù)（平均值）為0.33（0.38）。在每個(gè)類別中最常用的三個(gè)因變量中，盈利能力的平均相關(guān)性為0.95，公司價(jià)值的平均相關(guān)性為0.39，杠桿率的平均相關(guān)性為0.55，投資的平均相關(guān)性為0.18，支出的平均相關(guān)性為0.63，現(xiàn)金持有的平均相關(guān)性為0.73。測量子類別之間的相關(guān)性往往高于某一類別中的總體相關(guān)性，但不會高得多。例如，D組所有投資指標(biāo)之間的平均相關(guān)性為0.17，而實(shí)物投資指標(biāo)之間的平均相關(guān)性為0.21，研發(fā)指標(biāo)之間的平均相關(guān)性為0.26。E組中所有支付指標(biāo)之間的平均相關(guān)性為0.26，股息指標(biāo)之間的平均相關(guān)性為0.46，回購指標(biāo)之間的平均相關(guān)性為0.15。

即使兩個(gè)替代因變量之間的相關(guān)性為1.00，用一個(gè)替代另一個(gè)可能并不總能給出相同的回歸結(jié)果，因?yàn)閿?shù)據(jù)庫中可能缺少一個(gè)測量值的觀測值，而不是另一個(gè)。例如，息稅前利潤/總資產(chǎn)和營業(yè)收入/總資產(chǎn)的相關(guān)性為1.00，在Compustat數(shù)據(jù)中，它們幾乎總是相同的（四舍五入誤差內(nèi)）。盡管如此，在1963年至2018年期間，Compustat的11000多個(gè)公司年度觀察數(shù)據(jù)缺少息稅前利潤，但沒有缺少營業(yè)收入。

表格 2 常用因變量的相關(guān)性

3.3控制變量的可變性

樣本中的回歸也顯示出控制變量包含的大量差異。表3的A組報(bào)告了樣本中954個(gè)回歸中最常用的10個(gè)控制變量的使用率。A組顯示，企業(yè)規(guī)模是迄今為止最常用的控制變量，正如它出現(xiàn)在79%的回歸中，并且是所有六類回歸中最常見的控制變量。除了公司規(guī)模，控制變量的使用幾乎沒有一致性。下面四個(gè)最常見的控制變量反映了實(shí)證公司財(cái)務(wù)的循環(huán)性質(zhì)：盈利能力（使用率53%）、公司價(jià)值（45%）、杠桿率（38%）和投資（27%）。每種類型的控制變量都使用了許多不同的代理，這一事實(shí)加劇了控制變量使用的不一致性，這是A組中未報(bào)告的一個(gè)變量來源。

由于公司規(guī)模是迄今為止使用最多的控制變量，表3的B組進(jìn)一步描述了使用的規(guī)模度量。B組顯示了規(guī)模度量使用方面缺乏標(biāo)準(zhǔn)化。最廣泛使用的規(guī)模度量是log(total assets)，它在44%的回歸中使用，并且在六個(gè)類別中使用最頻繁。接下來兩個(gè)最普遍的規(guī)模度量是log(sales)和log(market value)，分別為13%和9%。

表格 3 實(shí)證公司金融的當(dāng)前實(shí)踐：控制變量

3.4其他方法決定的差異

在檢驗(yàn)假設(shè)時(shí)，研究人員通常會面臨許多其他方法上的決定。理想情況下，每個(gè)決策的適當(dāng)方法取決于檢驗(yàn)所依據(jù)的理論或數(shù)據(jù)的性質(zhì)，但有時(shí)理論可能對一個(gè)決策保持沉默，或者可能存在多個(gè)理論上可接受的替代方案。在表4中，我報(bào)告了在我的文章樣本中為許多常見決策選擇的備選方案的統(tǒng)計(jì)數(shù)據(jù)。

表格 4 實(shí)證公司金融的當(dāng)前實(shí)踐：其他方法決策

我對文獻(xiàn)的調(diào)查并沒有涵蓋所有可能的方法決定。其他重要問題包括工具變量選擇（Harvey, 2017）、交互項(xiàng)的使用（Christensen和Miguel, 2018）或子樣本（Gelman和Loken, 2014）、樣本中包含的時(shí)間段，以及估算方法的選擇（Harvey, 2017）。

3.5方法決定的動機(jī)

表1、3和4中記錄的各種方法提出了一個(gè)問題，即研究人員選擇一種方法替代方案的動機(jī)。方法上的差異有助于研究人員使用不同的方法來適應(yīng)特定的理論。不同的情況可能意味著異常值處理、變量轉(zhuǎn)換和其他決策的不同優(yōu)化程序。然而，如果研究人員不以理論為指導(dǎo)，那么方法上的變化可能只會給研究過程增添噪音。為了了解研究人員是如何做出這些決定的，我研究了文章樣本，以確定作者是否為他們的方法論決定提供了解釋。我報(bào)告作者是否對該決定提供了具體解釋，是否說他們的決定遵循了之前的文獻(xiàn)，或是否沒有對他們的決定提供解釋。我不試圖評估所述理由的有效性。

表5顯示，對于許多方法決策，絕大多數(shù)文章都沒有給出做出決策的理由。例如，第1行顯示，當(dāng)為因變量選擇代理時(shí)，作者在10%的時(shí)間里陳述了他們選擇的原因，說他們在13%的時(shí)間里遵循了之前的文獻(xiàn)，在78%的時(shí)間里沒有提供任何原因。第2行顯示，在將公司規(guī)模作為控制變量的63%案例中，沒有給出這樣做的解釋，第3行顯示，在92%的案例中，沒有給出所選特定規(guī)模代理的解釋。值得注意的是，第7行顯示，研究人員在131個(gè)案例中將連續(xù)的關(guān)鍵解釋變量轉(zhuǎn)換為虛擬變量，但81%的情況下，他們沒有說明這樣做的原因，盡管事實(shí)上這樣做會丟棄有價(jià)值的信息。第10行和第11行顯示，研究人員在不到10%的時(shí)間里解釋了他們對異常值處理和異常值截止值的決定。

因此，現(xiàn)有信息表明，缺乏理論指導(dǎo)為公司金融的方法選擇留下了很大的余地。當(dāng)然，作者省略解釋可能不是因?yàn)槿狈碚撘罁?jù)，而是為了避免解釋他們認(rèn)為例行或不重要的內(nèi)容，或者縮短論文長度。另一方面，即使作者提供了理論解釋，也不一定意味著理論僅限于一種可能的方法。無論如何，應(yīng)該強(qiáng)調(diào)的是，缺乏理論解釋并不意味著不道德的研究實(shí)踐。這確實(shí)意味著，對公司金融的研究需要進(jìn)行大量的可接受和可辯護(hù)的方法選擇。這種方法上的靈活性給推斷帶來了挑戰(zhàn)，即使是在原則性很強(qiáng)的研究人員中也是如此。

表格 5 實(shí)證公司金融的當(dāng)前實(shí)踐：方法決策的解釋

3.6方法實(shí)踐的趨勢

圖2顯示了一段時(shí)間內(nèi)方法決策的趨勢。我不報(bào)告表1、3和4中所涵蓋的所有決策的趨勢，因?yàn)樵S多模式并不特別顯著。

圖表 2 公司金融實(shí)證方法的發(fā)展趨勢

3.7最常用的方法

根據(jù)表1、3和4中報(bào)告的數(shù)據(jù)，我指定“最常用的方法”由以下幾點(diǎn)組成：使用最常用的因變量。包括大多數(shù)回歸中使用的所有控制變量。使用log(total assets)作為規(guī)?？刂?。包括樣本中的所有行業(yè)。不要log解釋變量。使用同期解釋變量。斷尾處理（Winsorize）非指標(biāo)變量在第1/99百分位。不要log因變量。對流量/存量因變量使用年末分母。最后，當(dāng)控制行業(yè)時(shí)，使用兩位數(shù)的SIC行業(yè)虛擬變量。這些決定將作為下一節(jié)檢驗(yàn)的基準(zhǔn)方法。

4.方法和統(tǒng)計(jì)顯著性

在本節(jié)中，我評估了方法差異對公司金融回歸系數(shù)統(tǒng)計(jì)顯著性的影響。

4.1數(shù)據(jù)和匯總統(tǒng)計(jì)

在分析中，我使用Compustat數(shù)據(jù)庫中的數(shù)據(jù)作為因變量和控制變量。我的樣本中77%的文章使用了Compustat數(shù)據(jù)。為了避免回補(bǔ)偏差，我排除了1963年之前的觀察結(jié)果，并且我要求一家公司在將其納入樣本之前在數(shù)據(jù)集中出現(xiàn)兩年。由此產(chǎn)生的數(shù)據(jù)集包括1963年至2018年間超過40萬個(gè)公司年度的觀察結(jié)果，盡管可用觀察結(jié)果的數(shù)量因不同變量而異。Compustat變量的定義和匯總統(tǒng)計(jì)數(shù)據(jù)見附錄表。

4.2 t統(tǒng)計(jì)量的變化

為了評估使用替代方法對統(tǒng)計(jì)顯著性的影響，我進(jìn)行了以下形式的面板回歸：

表6報(bào)告了改變方法時(shí)t統(tǒng)計(jì)數(shù)據(jù)的平均變化。

表格 6 改變方法時(shí)t統(tǒng)計(jì)量的變化：隨機(jī)生成的解釋變量

4.2.2準(zhǔn)隨機(jī)解釋變量

作為純隨機(jī)解釋變量的替代方案，我通過隨機(jī)組合來自Compustat的數(shù)據(jù)項(xiàng)來創(chuàng)建解釋變量。創(chuàng)建這些解釋變量的程序來自Yan和Zheng（2017）以及Chordia、Goyal和Saretto（2020），他們使用隨機(jī)的Compustat項(xiàng)目來檢驗(yàn)假設(shè)的交易策略。我通過從Chordia、Goyal和Saretto（2020）的173個(gè)數(shù)據(jù)項(xiàng)中隨機(jī)選擇一個(gè)分子來創(chuàng)建比率解釋變量，然后從Yan和Zheng（2017）的15個(gè)標(biāo)度變量中隨機(jī)選擇一個(gè)分母，來創(chuàng)建比率解釋變量。對于每一類回歸，我不允許使用與因變量有明顯相關(guān)性的分子。例如，我不允許在支出回歸中使用股息度量（Compustat代碼dv、dvc、dvp、dvpa、dvt），也不允許在現(xiàn)金回歸中使用現(xiàn)金度量（ch、che、chech）。我為每一類回歸創(chuàng)建了1000個(gè)這樣的解釋變量，我重復(fù)了檢驗(yàn)每一種替代方法對t統(tǒng)計(jì)量的影響的程序。

與純隨機(jī)解釋變量相比，準(zhǔn)隨機(jī)變量是從實(shí)際企業(yè)層面的數(shù)據(jù)中創(chuàng)建的，因此我們預(yù)計(jì)解釋變量和因變量之間會出現(xiàn)頻繁的相關(guān)性，即使Compustat數(shù)據(jù)項(xiàng)是隨機(jī)選擇的。由于這些潛在的相關(guān)性，t統(tǒng)計(jì)量的分布不再是標(biāo)準(zhǔn)正態(tài)分布，t統(tǒng)計(jì)量的預(yù)期變化不再以1.13為界。附錄表報(bào)告了在這些檢驗(yàn)中進(jìn)行的所有回歸的t統(tǒng)計(jì)量匯總統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)學(xué)證實(shí)，平均t統(tǒng)計(jì)量從零開始變化，t統(tǒng)計(jì)量的標(biāo)準(zhǔn)差遠(yuǎn)高于1。此外，在所有進(jìn)行的回歸中，超過70%的準(zhǔn)隨機(jī)變量系數(shù)在10%的水平上具有統(tǒng)計(jì)顯著性。

這些檢驗(yàn)的結(jié)果見表7。為了簡潔起見，我只報(bào)告公司固定效應(yīng)的結(jié)果，因?yàn)楸?顯示的結(jié)果與公司或行業(yè)固定效應(yīng)相似。這些決定再次從影響最大到影響最小列出。表7顯示，使用Compustat解釋變量時(shí)，各種方法差異的統(tǒng)計(jì)數(shù)據(jù)的平均變化要高得多。表7表明，當(dāng)解釋變量和因變量具有潛在相關(guān)性時(shí)，方法差異對t統(tǒng)計(jì)量的影響可能要大得多，而不是將其構(gòu)建為獨(dú)立變量時(shí)，如表6所示。

表格 7 改變方法時(shí)t統(tǒng)計(jì)量的變化：Compustat項(xiàng)的隨機(jī)組合

4.2.3實(shí)際假設(shè)的解釋變量

我還檢驗(yàn)了現(xiàn)有文獻(xiàn)中實(shí)際變量系數(shù)的t統(tǒng)計(jì)量方法差異的影響。在本節(jié)中，我們將編譯一組65個(gè)變量，這些變量在其他文章中被提議作為杠桿的決定因素。這些決定因素來自大量研究，為了簡潔起見，我并沒有討論每一個(gè)決定因素。在65個(gè)變量中，49個(gè)是連續(xù)變量，16個(gè)是虛擬變量。我檢驗(yàn)變量的方式與表6和表7中的檢驗(yàn)相同，具有固定的效果。

這些檢驗(yàn)的結(jié)果見表8。一般來說，這些檢驗(yàn)中方法決定的影響大于純隨機(jī)解釋變量的影響（表6），但小于從Compustat項(xiàng)目創(chuàng)建的準(zhǔn)隨機(jī)變量的影響（表7）。

表格 8 改變方法時(shí)t統(tǒng)計(jì)量的變化：杠桿率的擬議決定因素

4.3 方法靈活性的累積效應(yīng)

我現(xiàn)在評估了多個(gè)方法決定對隨機(jī)假設(shè)被發(fā)現(xiàn)具有統(tǒng)計(jì)顯著性的概率的累積影響。由于沒有方法上的靈活性，在10%的顯著性水平上，隨機(jī)假設(shè)應(yīng)該在10%的時(shí)間內(nèi)顯著。但是，如果一個(gè)隨機(jī)假設(shè)用多種方法進(jìn)行多次檢驗(yàn)，那么其中至少一種方法產(chǎn)生顯著系數(shù)的概率將上升到10%以上，當(dāng)方法差異對原始回歸更具破壞性時(shí)，概率增加得更多。

圖3顯示，在沒有方法決策的情況下，大約10%的隨機(jī)假設(shè)在10%水平上是顯著的，在5%水平上約為5%，在1%水平上約為1%。隨著更大的方法論自由裁量權(quán)被允許，這些百分比從左到右增加，與更具影響力的決策被允許的點(diǎn)相對應(yīng)，增加幅度更大。

圖表 3 對至少一種方法顯著的隨機(jī)假設(shè)

5.擬議補(bǔ)救措施

5.1 穩(wěn)健性檢驗(yàn)

穩(wěn)健性檢驗(yàn)通常用于確保報(bào)告的結(jié)果不依賴于特定的方法。當(dāng)一個(gè)給定的假設(shè)需要在多個(gè)規(guī)范中具有統(tǒng)計(jì)顯著性時(shí)，它會降低假設(shè)作為統(tǒng)計(jì)顯著性結(jié)果出現(xiàn)的概率。圖4顯示了穩(wěn)健性檢驗(yàn)在多大程度上降低了發(fā)現(xiàn)統(tǒng)計(jì)上顯著假設(shè)的概率。圖4左邊的第一組點(diǎn)顯示了當(dāng)研究人員對所有10種方法的決定都有自由裁量權(quán)時(shí)，至少一種方法組合可以顯示出統(tǒng)計(jì)顯著性的隨機(jī)假設(shè)的百分比。隨著分?jǐn)?shù)從左向右移動，研究人員仍然對這10項(xiàng)決定有自由裁量權(quán)，但他們也需要證明，隨著這10項(xiàng)決定數(shù)量的增加，結(jié)果會發(fā)生變化。

圖4顯示了三個(gè)關(guān)鍵點(diǎn)。首先，當(dāng)需要適度數(shù)量的穩(wěn)健性檢驗(yàn)時(shí)，仍然相對容易找到允許報(bào)告顯著結(jié)果的方法組合（圖中的假設(shè)是研究人員選擇報(bào)告哪些穩(wěn)健性檢驗(yàn)）。第二，隨著所需的穩(wěn)健性檢驗(yàn)數(shù)量的增加，發(fā)現(xiàn)顯著結(jié)果的概率也隨之降低。第三，隨著穩(wěn)健性檢驗(yàn)數(shù)量的增加，可以顯示出顯著性的假設(shè)數(shù)量最終趨向于零（低于10%/5%/1%的基線）。該圖在10次穩(wěn)健性檢驗(yàn)時(shí)停止，此時(shí)，隨機(jī)假設(shè)在10%水平上的顯著性時(shí)間為3%，在5%水平上的顯著性時(shí)間為1%，在1%水平上的顯著性時(shí)間為0%，但增加穩(wěn)健性檢驗(yàn)次數(shù)將進(jìn)一步降低發(fā)現(xiàn)顯著假設(shè)的概率。

圖4說明了穩(wěn)健性檢驗(yàn)的一個(gè)缺點(diǎn)：雖然它們明顯降低了假陽性結(jié)果的概率，但如果過度和不加區(qū)別地要求，它們也可能導(dǎo)致假陰性結(jié)果。一個(gè)假設(shè)很少能經(jīng)受住每一次合理的穩(wěn)健性檢驗(yàn)。事實(shí)上，Harvey（2019）警告稱，如果人們足夠努力，可能會出現(xiàn)“反向p-hacking”，或者發(fā)現(xiàn)與任何假設(shè)相矛盾的規(guī)范。

穩(wěn)健性檢驗(yàn)的第二個(gè)缺點(diǎn)是，盡管幾十年來它們一直被定期使用，但它們并沒有解決選擇性報(bào)告具有統(tǒng)計(jì)顯著性結(jié)果的問題。Christensen和Miguel（2018）注釋：在應(yīng)用經(jīng)濟(jì)學(xué)中更多地使用額外的穩(wěn)健性檢查是為了限制規(guī)范搜索的范圍……但目前尚不清楚這些變化在減少實(shí)踐中的偏差方面有多有效…Brodeur等人（2016）發(fā)表的對近年來三大頂級經(jīng)濟(jì)學(xué)期刊上641篇文章的分析仍然顯示出令人不安的雙峰分布p值，相對較少的p值在0.10和0.25之間，遠(yuǎn)遠(yuǎn)低于0.05。

穩(wěn)健性檢驗(yàn)的第三個(gè)問題是它們不是很系統(tǒng)。研究人員無法檢驗(yàn)所有可能的方法組合，因此研究人員報(bào)告的穩(wěn)健性檢驗(yàn)集可能會有意或無意地呈現(xiàn)變量穩(wěn)健性的扭曲畫面。審查過程有助于確保研究人員不會錯過重要的穩(wěn)健性檢驗(yàn)。然而，文章往往只討論確認(rèn)報(bào)告結(jié)果的穩(wěn)健性檢驗(yàn)。

圖表 4 通過穩(wěn)健性檢驗(yàn)的隨機(jī)假設(shè)

5.2 規(guī)范檢查（Specification checks）

另一種解決方法差異的方法是報(bào)告不同方法組合可能產(chǎn)生的全部結(jié)果。Brodeur, Cook和Heyes（2020b）將此類分析稱為“規(guī)范檢查”，他們的程序包括使用所有可能的方法組合進(jìn)行回歸，以圖形形式報(bào)告獲得的結(jié)果分布。

規(guī)范檢查的一個(gè)優(yōu)點(diǎn)是，在圖形上顯示同時(shí)改變許多不同方法對統(tǒng)計(jì)顯著性的影響，而穩(wěn)健性檢驗(yàn)通常報(bào)告一次改變一種方法的結(jié)果。規(guī)范檢查可根據(jù)需要擴(kuò)展到不同的方法組合。規(guī)范檢查的一個(gè)缺點(diǎn)是，要檢驗(yàn)的一組決定仍然由研究人員自行決定，研究人員可以有意或無意地僅包括支持假設(shè)的方法。然而，與穩(wěn)健性檢驗(yàn)相比，規(guī)范檢查是評估結(jié)果有效性的更系統(tǒng)、更全面的方法。

5.3 經(jīng)濟(jì)意義

研究人員應(yīng)對方法差異負(fù)面影響的一個(gè)重要方法是減少對統(tǒng)計(jì)顯著性的強(qiáng)調(diào)，而更多地強(qiáng)調(diào)經(jīng)濟(jì)意義。雖然眾所周知，統(tǒng)計(jì)顯著性并不衡量實(shí)際重要性，但經(jīng)濟(jì)意義的討論往往比統(tǒng)計(jì)顯著性的討論遜色，這可能是因?yàn)榻y(tǒng)計(jì)顯著性更容易衡量，或者是因?yàn)榻y(tǒng)計(jì)重要性的標(biāo)準(zhǔn)化三個(gè)閾值使其能夠顯示顯著的結(jié)果。然而，經(jīng)濟(jì)意義最終是更相關(guān)的衡量標(biāo)準(zhǔn)；我們不僅想知道一種效應(yīng)在統(tǒng)計(jì)學(xué)上是否可檢測，而且想知道它對現(xiàn)實(shí)世界的影響有多大。此外，Mitton（2021）表明，具有經(jīng)濟(jì)意義的指標(biāo)比具有統(tǒng)計(jì)顯著性的指標(biāo)更不受方法差異的影響。因此，關(guān)注經(jīng)濟(jì)意義不僅會強(qiáng)調(diào)更相關(guān)的措施，還會削弱發(fā)表偏見和p-hacking的動機(jī)。

5.4 其他補(bǔ)救措施

文獻(xiàn)中還提出了其他一些減輕方法差異負(fù)面影響的建議。首先，研究人員應(yīng)該透明地報(bào)告研究過程中進(jìn)行的所有檢驗(yàn)，而不僅僅是那些支持被檢驗(yàn)假設(shè)的檢驗(yàn)。其次，研究人員應(yīng)該在查看數(shù)據(jù)之前概述研究框架（包括關(guān)于方法的決定）。第三，研究人員應(yīng)公開用于生成結(jié)果的數(shù)據(jù)（如果可能）和代碼（見Harvey（2019））。

最后一個(gè)建議是，研究人員應(yīng)努力適應(yīng)多種檢驗(yàn)。理想情況下，采用多種可接受方法的檢驗(yàn)應(yīng)被視為多重檢驗(yàn)，并進(jìn)行統(tǒng)計(jì)校正，如處理多重假設(shè)或多重比較時(shí)所需的校正（Gelman和Loken，2014）。Harvey, Liu和Saretto（2020）討論了金融研究中調(diào)整多重檢驗(yàn)的替代方法。不幸的是，盡管重要性的閾值需要更嚴(yán)格，但由于如何解釋幾乎無窮無盡的方法排列的模糊性，知道如何調(diào)整多種方法的閾值尤其困難。事實(shí)上，部分出于這個(gè)原因，Simmons, Nelson和Simonsohn（2011）認(rèn)為這種調(diào)整是不切實(shí)際的。

4.結(jié)論

隨著公司金融實(shí)證研究的大量涌現(xiàn)，確定哪些研究結(jié)果真正重要至關(guān)重要。本文的結(jié)果表明，統(tǒng)計(jì)顯著性不足以證明實(shí)證結(jié)果是重要的。除了統(tǒng)計(jì)顯著性不能衡量實(shí)際重要性這一事實(shí)之外，我的檢驗(yàn)表明，統(tǒng)計(jì)顯著性系數(shù)通常可以通過在不同維度上改變經(jīng)驗(yàn)方法來產(chǎn)生。因此，盡管各種各樣的方法使研究人員能夠靈活地定制實(shí)證檢驗(yàn)，以與正在檢驗(yàn)的理論緊密匹配，但它也可能導(dǎo)致p-hacking和發(fā)表偏見。目前尚不確定p-hacking在該行業(yè)中的發(fā)生程度，但發(fā)表偏見有充分的記錄，僅此一點(diǎn)就足以讓方法的靈活性給統(tǒng)計(jì)推斷帶來問題。

我的分析指出了幾種緩解方法差異負(fù)面影響的方法。研究人員應(yīng)該采用穩(wěn)健性檢查，同時(shí)在全面而不過度地應(yīng)用它們之間取得平衡。研究人員應(yīng)該認(rèn)識到，很少有研究結(jié)果在所有維度上都是可靠的，并且花更多的時(shí)間理解為什么結(jié)果在某些維度上是脆弱的，而不是簡單地捍衛(wèi)結(jié)果的可靠性。研究人員應(yīng)該使用規(guī)范檢查作為一種更全面、更系統(tǒng)的方法來評估結(jié)果的穩(wěn)定性。此外，研究人員應(yīng)該更多地關(guān)注結(jié)果的經(jīng)濟(jì)意義，而不是統(tǒng)計(jì)顯著性。通過遵循這些建議，以及其他討論的建議，研究人員可以幫助避免因方法差異而產(chǎn)生的扭曲推論。