大數(shù)據(jù)時代還需要統(tǒng)計思維嗎？

泓泉淼淼 2015-10-21

展開全文

（這是社論團隊·社會學小組的第12次推送)

摘要

本期推送美國聯(lián)合學院數(shù)學系助理教授Roger W.Hoerl等人在WIREs Computational Statistics（2014年第6期）雜志上發(fā)表的《應用統(tǒng)計思維破解“大數(shù)據(jù)”難題》（Applying statistical thinking to ‘Big Data’problems）一文。文章指出，大數(shù)據(jù)在幫助我們理解或預測事物上具有光明的前途，但也帶來了一個潛在的誤識：大數(shù)據(jù)時代統(tǒng)計思維不再需要了。而作者認為統(tǒng)計思維和建模的基本原理是大數(shù)據(jù)項目成功的關(guān)鍵，良好的統(tǒng)計實踐、扎實的專業(yè)知識、全面的建模策略和計劃對于解決大數(shù)據(jù)難題比小數(shù)據(jù)難題更為重要。

大數(shù)據(jù)與科學方法之爭

2008年，美國連線雜志主編Chris Anderson發(fā)表了一篇引起廣泛科學爭議的文章——理論的終結(jié)：海量的數(shù)據(jù)取代了科學方法（The End of Theory: the Data Deluge Makes the Scientific Method Obsolete）。盡管引起了科學界的強烈反擊，但是這在大數(shù)據(jù)社區(qū)卻是人所共識的觀點，由于大數(shù)據(jù)和新技術(shù)的不斷出現(xiàn)，現(xiàn)在不再需要科學模型、理論、經(jīng)驗和專業(yè)知識，而只要有實證的數(shù)據(jù)分析就能夠解決科學和工業(yè)的主要問題。甚至，Mayer-Sch?nberger和Cukier認為我們不再需要關(guān)注因果關(guān)系，應該從探求因果關(guān)系（causation）轉(zhuǎn)而尋求相關(guān)性（correlation）。然而，大數(shù)據(jù)時代，統(tǒng)計思維真的沒有用武之地了嗎？作者認為，當前大數(shù)據(jù)和精致的算法實際上比以往任何時代都更重要，并列舉了缺乏統(tǒng)計思維而導致大數(shù)據(jù)項目失敗的諸多案例。

大數(shù)據(jù)的失敗案例

作者指出，由于大數(shù)據(jù)分析的能力和影響，人們很容易輕信大數(shù)據(jù)加先進的分析技術(shù)就等于成功，不幸的是許多基于大數(shù)據(jù)的精致分析卻產(chǎn)生了令人意想不到的結(jié)果。最著名的例子是杜克大學基因研究中心的瓦解，該中心的兩位研究者共同發(fā)表了一篇突破性的文章，在文中他們認為通過對女性DNA的分析能夠找出治療乳腺癌的辦法。但不幸的是基于此理論的大量臨床試驗并未產(chǎn)生預期的結(jié)果。兩位統(tǒng)計學家開始展開調(diào)查，結(jié)果發(fā)現(xiàn)在巨大的數(shù)據(jù)集中出現(xiàn)了一處行列轉(zhuǎn)置問題，這一小小的失誤最終導致了基因中心的瓦解。

在金融領(lǐng)域，雷曼兄弟的破產(chǎn)也是一例。雷曼兄弟公司花了數(shù)年時間開發(fā)出了一套用于測試公司違約的模型，希望通過它比競爭對手更快、更準確的預測出投資公司違約的風險。然而諷刺的是，如此精致的模型和大數(shù)據(jù)卻沒有預測到雷曼兄弟自身的破產(chǎn)。如今，在許多人看來，導致雷曼兄弟沒能預見自己公司破產(chǎn)的原因是該模型的一個關(guān)鍵假設(shè)，即假設(shè)將來會像過去一樣發(fā)展，比如一個消極因素會廣泛的影響市場的未來，就像它在過去發(fā)生的一樣。

然而，作者認為這些案例失敗的根本原因是人們在為擁有大量數(shù)據(jù)和新的、精確的算法而歡呼雀躍時，忘卻了基本的統(tǒng)計學思維。數(shù)據(jù)量大固然是好，但是大量的數(shù)據(jù)也會增加發(fā)現(xiàn)重要信息的難度，因此，大數(shù)據(jù)時代，基本的統(tǒng)計思維仍然是至關(guān)重要的，它有助于產(chǎn)生可行的、有效的解決方案。

大數(shù)據(jù)時代應該具有的統(tǒng)計思維

作者認為，統(tǒng)計思維是一種學習和實踐的哲學，包括三個基本的原則：

1、所有的工作都是相互聯(lián)系的過程；

2、每一個過程都可以存在變異；

3、理解并減少變異是成功的關(guān)鍵。

在這里，工作是一個廣義的概念，是指人類的一切活動，它意味著所有活動都是一個過程，并且這些過程將會影響整個正式的系統(tǒng)，比如我們想要恰當?shù)姆治鰯?shù)據(jù)，就需要了解數(shù)據(jù)產(chǎn)生的過程。第二個原則和第三個原則是指我們需要承認變異的普遍存在，并且明白如何解釋和處理數(shù)據(jù)的變異。

在踐行這些原理時需要注意四個方面：

1、仔細的考察數(shù)據(jù)的質(zhì)量。評估數(shù)據(jù)質(zhì)量的關(guān)鍵需要仔細考察數(shù)據(jù)的“譜系”（pedigree），這需要遵守如下步驟：（1）明白數(shù)據(jù)結(jié)構(gòu)、產(chǎn)生和收集過程的科學和工程學；（2）知道數(shù)據(jù)的收集過程；（3）明白如何測量獲得的數(shù)據(jù)。明確地知道數(shù)據(jù)從哪兒來、如何收集的有助于了解數(shù)據(jù)質(zhì)量和穩(wěn)定性，作者認為評估數(shù)據(jù)的“譜系”應該被至于數(shù)據(jù)分析的首要位置。數(shù)據(jù)管理、自動的數(shù)據(jù)清洗算法和缺失值是導致數(shù)據(jù)問題的三個來源。

2、運用可靠的專業(yè)知識。作者認為專業(yè)知識能夠在如何選擇變量和模型上給予我們有效的指導。專業(yè)知識在研究的整個過程中都能得到充分的應用，包括評估數(shù)據(jù)質(zhì)量、選擇變量、選擇合適的測量方法和模型、解釋結(jié)果、推斷結(jié)果、總結(jié)未來可能的研究等。優(yōu)質(zhì)的數(shù)據(jù)、地道的分析和良好的專業(yè)知識才是強大的組合。

3、有明確的數(shù)據(jù)分析策略。從統(tǒng)計工程學的角度，解決大數(shù)據(jù)問題的包含五個階段：一是識別重要問題，積極的發(fā)現(xiàn)問題；二是分析問題的結(jié)構(gòu)，將含混不清的、結(jié)構(gòu)化的問題轉(zhuǎn)化為精確的、具體的問題；三是理解問題產(chǎn)生的背景，需找合適的方法澄清潛在的限制和局限；四是提出分析策略，它應該是一個總體性的方案，而不只是選擇一個合適的統(tǒng)計工具；五是實施分析策略。

4、循序漸進的解決問題。循序漸進是一個重要的科學方法，即在每一次試驗中取得一點進步，收集更好的、更相關(guān)的數(shù)據(jù)，檢驗和修正假設(shè)等等，直到最終解決問題。在統(tǒng)計學中存在一個令人擔憂的現(xiàn)象：在利用現(xiàn)有數(shù)據(jù)進行統(tǒng)計建模時一味的尋求最佳模型，這時“最佳”就很容易狹隘的定義為一些數(shù)值標準，比如均方根誤差（RMSE）。因此，作者認為與其在現(xiàn)有數(shù)據(jù)上花費大量時間尋求“最佳”模型，不如盡快的找到現(xiàn)有數(shù)據(jù)能夠回答的問題，然后繼續(xù)將來的數(shù)據(jù)收集。因為實踐呼吁合適的分析而不是終極的分析，而執(zhí)行一個合理的分析本質(zhì)上是基于循序漸進的分析方法。

點評

文章針對大數(shù)據(jù)時代忽視統(tǒng)計思維的現(xiàn)象展開了討論。作者認為大數(shù)據(jù)增加了發(fā)現(xiàn)重要信息的難度，在缺乏統(tǒng)計思維、一味追求“最佳”模型和精確算法的情況下，大數(shù)據(jù)甚至會帶來未預料的后果，在大數(shù)據(jù)時代統(tǒng)計思維仍然至關(guān)重要。文章的這個判斷在某種程度上是一種友善的提醒，但這確實是大數(shù)據(jù)發(fā)展過程中，尤其是在遭受到大量質(zhì)疑時，不容忽視的重要問題，作者的呼吁應該得到每位數(shù)據(jù)科學工作者的重視。

參考文獻：

Roger W.Hoerl, Ronald D.Snee and Richard D.De Veaux, 2014, Applying statistical thinking to ‘Big Data’ problems. WIREs Computational Statistics, Vol. 6: 222-232.

文獻整理：蔣和超