(這是社論團隊·社會學小組的第12次推送) 摘 要 本期推送美國聯(lián)合學院數(shù)學系助理教授Roger W.Hoerl等人在WIREs Computational Statistics(2014年第6期)雜志上發(fā)表的《應用統(tǒng)計思維破解“大數(shù)據(jù)”難題》(Applying statistical thinking to ‘Big Data’problems)一文。文章指出,大數(shù)據(jù)在幫助我們理解或預測事物上具有光明的前途,但也帶來了一個潛在的誤識:大數(shù)據(jù)時代統(tǒng)計思維不再需要了。而作者認為統(tǒng)計思維和建模的基本原理是大數(shù)據(jù)項目成功的關(guān)鍵,良好的統(tǒng)計實踐、扎實的專業(yè)知識、全面的建模策略和計劃對于解決大數(shù)據(jù)難題比小數(shù)據(jù)難題更為重要。 2008年,美國連線雜志主編Chris Anderson發(fā)表了一篇引起廣泛科學爭議的文章——理論的終結(jié):海量的數(shù)據(jù)取代了科學方法(The End of Theory: the Data Deluge Makes the Scientific Method Obsolete)。盡管引起了科學界的強烈反擊,但是這在大數(shù)據(jù)社區(qū)卻是人所共識的觀點,由于大數(shù)據(jù)和新技術(shù)的不斷出現(xiàn),現(xiàn)在不再需要科學模型、理論、經(jīng)驗和專業(yè)知識,而只要有實證的數(shù)據(jù)分析就能夠解決科學和工業(yè)的主要問題。甚至,Mayer-Sch?nberger和Cukier認為我們不再需要關(guān)注因果關(guān)系,應該從探求因果關(guān)系(causation)轉(zhuǎn)而尋求相關(guān)性(correlation)。然而,大數(shù)據(jù)時代,統(tǒng)計思維真的沒有用武之地了嗎?作者認為,當前大數(shù)據(jù)和精致的算法實際上比以往任何時代都更重要,并列舉了缺乏統(tǒng)計思維而導致大數(shù)據(jù)項目失敗的諸多案例。 作者指出,由于大數(shù)據(jù)分析的能力和影響,人們很容易輕信大數(shù)據(jù)加先進的分析技術(shù)就等于成功,不幸的是許多基于大數(shù)據(jù)的精致分析卻產(chǎn)生了令人意想不到的結(jié)果。最著名的例子是杜克大學基因研究中心的瓦解,該中心的兩位研究者共同發(fā)表了一篇突破性的文章,在文中他們認為通過對女性DNA的分析能夠找出治療乳腺癌的辦法。但不幸的是基于此理論的大量臨床試驗并未產(chǎn)生預期的結(jié)果。兩位統(tǒng)計學家開始展開調(diào)查,結(jié)果發(fā)現(xiàn)在巨大的數(shù)據(jù)集中出現(xiàn)了一處行列轉(zhuǎn)置問題,這一小小的失誤最終導致了基因中心的瓦解。 在金融領(lǐng)域,雷曼兄弟的破產(chǎn)也是一例。雷曼兄弟公司花了數(shù)年時間開發(fā)出了一套用于測試公司違約的模型,希望通過它比競爭對手更快、更準確的預測出投資公司違約的風險。然而諷刺的是,如此精致的模型和大數(shù)據(jù)卻沒有預測到雷曼兄弟自身的破產(chǎn)。如今,在許多人看來,導致雷曼兄弟沒能預見自己公司破產(chǎn)的原因是該模型的一個關(guān)鍵假設(shè),即假設(shè)將來會像過去一樣發(fā)展,比如一個消極因素會廣泛的影響市場的未來,就像它在過去發(fā)生的一樣。 然而,作者認為這些案例失敗的根本原因是人們在為擁有大量數(shù)據(jù)和新的、精確的算法而歡呼雀躍時,忘卻了基本的統(tǒng)計學思維。數(shù)據(jù)量大固然是好,但是大量的數(shù)據(jù)也會增加發(fā)現(xiàn)重要信息的難度,因此,大數(shù)據(jù)時代,基本的統(tǒng)計思維仍然是至關(guān)重要的,它有助于產(chǎn)生可行的、有效的解決方案。 作者認為,統(tǒng)計思維是一種學習和實踐的哲學,包括三個基本的原則: 1、所有的工作都是相互聯(lián)系的過程; 2、每一個過程都可以存在變異; 3、理解并減少變異是成功的關(guān)鍵。 在這里,工作是一個廣義的概念,是指人類的一切活動,它意味著所有活動都是一個過程,并且這些過程將會影響整個正式的系統(tǒng),比如我們想要恰當?shù)姆治鰯?shù)據(jù),就需要了解數(shù)據(jù)產(chǎn)生的過程。第二個原則和第三個原則是指我們需要承認變異的普遍存在,并且明白如何解釋和處理數(shù)據(jù)的變異。 在踐行這些原理時需要注意四個方面: 1、仔細的考察數(shù)據(jù)的質(zhì)量。評估數(shù)據(jù)質(zhì)量的關(guān)鍵需要仔細考察數(shù)據(jù)的“譜系”(pedigree),這需要遵守如下步驟:(1)明白數(shù)據(jù)結(jié)構(gòu)、產(chǎn)生和收集過程的科學和工程學;(2)知道數(shù)據(jù)的收集過程;(3)明白如何測量獲得的數(shù)據(jù)。明確地知道數(shù)據(jù)從哪兒來、如何收集的有助于了解數(shù)據(jù)質(zhì)量和穩(wěn)定性,作者認為評估數(shù)據(jù)的“譜系”應該被至于數(shù)據(jù)分析的首要位置。數(shù)據(jù)管理、自動的數(shù)據(jù)清洗算法和缺失值是導致數(shù)據(jù)問題的三個來源。 2、運用可靠的專業(yè)知識。作者認為專業(yè)知識能夠在如何選擇變量和模型上給予我們有效的指導。專業(yè)知識在研究的整個過程中都能得到充分的應用,包括評估數(shù)據(jù)質(zhì)量、選擇變量、選擇合適的測量方法和模型、解釋結(jié)果、推斷結(jié)果、總結(jié)未來可能的研究等。優(yōu)質(zhì)的數(shù)據(jù)、地道的分析和良好的專業(yè)知識才是強大的組合。 3、有明確的數(shù)據(jù)分析策略。從統(tǒng)計工程學的角度,解決大數(shù)據(jù)問題的包含五個階段:一是識別重要問題,積極的發(fā)現(xiàn)問題;二是分析問題的結(jié)構(gòu),將含混不清的、結(jié)構(gòu)化的問題轉(zhuǎn)化為精確的、具體的問題;三是理解問題產(chǎn)生的背景,需找合適的方法澄清潛在的限制和局限;四是提出分析策略,它應該是一個總體性的方案,而不只是選擇一個合適的統(tǒng)計工具;五是實施分析策略。 4、循序漸進的解決問題。循序漸進是一個重要的科學方法,即在每一次試驗中取得一點進步,收集更好的、更相關(guān)的數(shù)據(jù),檢驗和修正假設(shè)等等,直到最終解決問題。在統(tǒng)計學中存在一個令人擔憂的現(xiàn)象:在利用現(xiàn)有數(shù)據(jù)進行統(tǒng)計建模時一味的尋求最佳模型,這時“最佳”就很容易狹隘的定義為一些數(shù)值標準,比如均方根誤差(RMSE)。因此,作者認為與其在現(xiàn)有數(shù)據(jù)上花費大量時間尋求“最佳”模型,不如盡快的找到現(xiàn)有數(shù)據(jù)能夠回答的問題,然后繼續(xù)將來的數(shù)據(jù)收集。因為實踐呼吁合適的分析而不是終極的分析,而執(zhí)行一個合理的分析本質(zhì)上是基于循序漸進的分析方法。 文章針對大數(shù)據(jù)時代忽視統(tǒng)計思維的現(xiàn)象展開了討論。作者認為大數(shù)據(jù)增加了發(fā)現(xiàn)重要信息的難度,在缺乏統(tǒng)計思維、一味追求“最佳”模型和精確算法的情況下,大數(shù)據(jù)甚至會帶來未預料的后果,在大數(shù)據(jù)時代統(tǒng)計思維仍然至關(guān)重要。文章的這個判斷在某種程度上是一種友善的提醒,但這確實是大數(shù)據(jù)發(fā)展過程中,尤其是在遭受到大量質(zhì)疑時,不容忽視的重要問題,作者的呼吁應該得到每位數(shù)據(jù)科學工作者的重視。 參考文獻: Roger W.Hoerl, Ronald D.Snee and Richard D.De Veaux, 2014, Applying statistical thinking to ‘Big Data’ problems. WIREs Computational Statistics, Vol. 6: 222-232. 文獻整理:蔣和超 社論團隊包括社論·社會學小組和社論·社會工作小組,我們旨在追蹤海外社會學與社會工作的最新前沿研究,我們希望每天定時來到您身邊,為您推送最有價值的論文干貨,與您一起成長。 |
|