點擊標題下方藍字 關注+星標 “Political理論志” 不錯過社會科學前沿精彩信息哦 具體操作如右 → 因果性網(wǎng)絡分析摘要: 隨著統(tǒng)計建模技術的發(fā)展和網(wǎng)絡數(shù)據(jù)的快速增長,社會網(wǎng)絡分析(social network analysis,SNA)已經(jīng)越來越受社會學和相關學科的關注。然而,該領域的研究主要是描述性(descriptive)和相關性(correlational)的,難以嚴格轉(zhuǎn)化為實踐和政策成果。本文回顧了因果網(wǎng)絡分析的流行模型和方法,重點介紹了因果推理面臨的威脅,包括測量誤差(measurment error)、數(shù)據(jù)缺失(missing data)、網(wǎng)絡內(nèi)生性(network endogeneity)、情境混淆(contextual confounding)、同時性(simultaneity)和共線性(collinearity),以及相應的解決方案,包括工具變量(instrumental variables)、專門實驗(specialized experiments)、利用縱向數(shù)據(jù)(longitudinal data)。本文討論了網(wǎng)絡形成和網(wǎng)絡效應以及社會中心網(wǎng)絡(sociocentric network)和自我中心網(wǎng)絡(egocentric network)的主要模型和方法。最后,本文還討論了因果網(wǎng)絡分析的未來方向。 學人簡介: Weihua An,埃默里大學社會學系 Roberson Beauvile,埃默里大學社會學系定量理論和方法系 Benjamin Rosche,康奈爾大學社會學系 文獻來源: An, W., Beauvile, R., & Rosche, B. (2022). Causal Network Analysis. Annual Review of Sociology, 48. Weihua An Benjamin Rosche 基于已有文獻(Scott 1991,F(xiàn)reeman 2004),我們可將社會網(wǎng)絡分析的發(fā)展分為五個時期。首先是出現(xiàn)期(1930-1950),Moreno(1934)引入了社會關系圖(sociograms)來表示小團體中個體間的關系。第二個時期是平靜期(20世紀50年代至70年代),標志是哥倫比亞學派,如保羅·拉扎斯菲爾德(Paul Lazarsfeld)、詹姆斯·科爾曼(James Coleman)、埃利胡·卡茨(Elihu Katz)、赫伯特·門澤爾(Herbert Menzel)和埃弗里特·羅杰斯(Everett Rogers)從網(wǎng)絡的角度研究了社會擴散(social diffusion)。第三個階段是騰飛期(20世紀70年代至90年代),哈里森·懷特(Harrison White)和他的學生在這一時期開始了社會網(wǎng)絡分析領域的“哈佛革命”,這場革命推廣了矩陣代數(shù)在網(wǎng)絡分析中的應用。第四個時期是突破期(20世紀90年代至2000年代),出現(xiàn)了先進的統(tǒng)計網(wǎng)絡模型,如指數(shù)隨機圖模型ERGM(Exponential Random Graph Model)和隨機參與者導向模型(stochastic actor-oriented model,SAOM)。 最后是深化期(2010年代至今),此時社會網(wǎng)絡分析變得更加跨學科,更多使用因果機制分析、基于網(wǎng)絡的干預、大型網(wǎng)絡分析等。社會網(wǎng)絡分析通常使用自我中心網(wǎng)絡、社會中心網(wǎng)絡的研究設計,在自我網(wǎng)絡設計中,研究者往往直接較大的總體中選擇樣本(ego),并引出與自我直接相連的節(jié)點(alters)。而社會中心網(wǎng)絡設計首先確定感興趣的群體,然后收集該群體中形成的所有聯(lián)系。研究人員通常使用觀察(Whyte 1943)、調(diào)查(An 2022a)、檔案(Padgett & Ansell 1993),或在數(shù)字社交媒體(Wimmer & Lewis 2010)中收集網(wǎng)絡數(shù)據(jù)。 社會中心(sociocentric)網(wǎng)絡模型 (1)理論分析 社會中心網(wǎng)絡,可理解為一個描述參與者(actors)之間關系(ties)的鄰接矩陣(adjacency matrix)。既有文獻傾向于從三個角度分析網(wǎng)絡形成的機制。 第一,各類個體協(xié)變量可能影響關系建立,如年齡、性別、種族和民族、文化品味、價值觀和信仰、家庭背景、遺傳因素,且通常對三種類型的協(xié)變量效應進行建模:(a)接收者效應(receiver effects),即協(xié)變量對傳入聯(lián)系(incoming ties)的影響,(b)發(fā)送者效應(sender effects)即協(xié)變量對向外聯(lián)系(outgoing effects)的影響,(c)嗜同性效應(homophily effects)即傾向于和相像的人建立聯(lián)系。 第二,結構性機會(structural opportunities)決定了兩個參與者會面和互動的可能性和頻率。Feld(1981、1982)認為,具有共同活動和從屬關系的主體更有可能彼此建立聯(lián)系。Small&Adler(2019)認為,空間環(huán)境(如空間鄰近性(spatial propinquity)、空間構成(spatial composition)和空間結構(spatial configuration)在關系形成中起著重要作用。Wimmer & Lewis(2010)研究表明,住在同一宿舍的大學生比住在不同公寓的大學生更有可能成為朋友。在操作化方面,大多數(shù)描述結構性機會的變量,如個人的歸屬或居住地都可以被視為個人協(xié)變量。 第三,已有連接有助于新聯(lián)系的形成,從而導致內(nèi)生性聯(lián)系(Goodreau等 2009,Kossinets&Watts 2009,Wimmer & Lewis 2010,2015)?;セ菪裕╮eciprocity)、傳遞性(transitivity)即和朋友的朋友建立聯(lián)系、優(yōu)先連接(preferential attachment)即傾向于和受歡迎的主體建立聯(lián)系,以及差異化社交(differential sociability)即部分主體往往能夠向外發(fā)出大量聯(lián)系,都有助于形成內(nèi)生性聯(lián)系。 (2)模型估計 邏輯回歸是針對無自循環(huán)(no self-loops)的鄰接矩陣中的非對角線(off-diagonal)個體的一種方法。二元logistic回歸模型可以解釋聯(lián)系形成中的馬爾可夫相關性,即涵蓋同一個節(jié)點的聯(lián)系之間的相關性。然而,該模型無法考慮到聯(lián)系形成中的高階依賴性(higher-order dependence) ,即關系在局部依賴性(local dependence)的條件下彼此獨立。由于模型的這種性質(zhì),該模型的估計被稱為最大偽似然估計MPLE(maximum pseudo-likelihood estimation)。 指數(shù)隨機圖模型ERGM具有可擴展性,對整個鄰接矩陣進行建模,且沒有任何獨立性假設,因而比二元邏輯回歸模型更加可取。ERGM通常通過蒙特卡羅最大似然估計MCMLE(Monte Carlo maximum likelihood estimation)方法(Hunter & Handcock 2006)進行估計。An(2016)提出可使用加速MCMLE(Calderhead 2014)、MPE擬合法、采用圖形極限來擬合標準化因子(He & Zheng 2015),在大型網(wǎng)絡的子網(wǎng)絡上擬合ERGM然后組合估計值、數(shù)據(jù)精簡(data reduction)、模型再參數(shù)化(reparameterization)方法。 (3)潛在問題 測量誤差(measurment error)和數(shù)據(jù)缺失(missing data)。網(wǎng)絡數(shù)據(jù)可能包含不同程度的測量誤差和缺失數(shù)據(jù)(Marsden 2005,Handcock & Gile 2007,An 2011)。如果受訪者對報告的關系信息不準確(An & Schramski 2015)、遺忘關系(Brewer & Webster 2000)、網(wǎng)絡數(shù)據(jù)不準確,則可能會出現(xiàn)網(wǎng)絡關系中的測量誤差。對此,可使用多個報告來估算真實值(Krackhardt 1987,An & Schramski 2015),如使用多個非自我報告數(shù)據(jù)來三角化和糾正敏感行為的自我報告,以減少自我報告協(xié)變量中的測量誤差(An & Doan 2015,An 2022b)。當受訪者拒絕報告他們的聯(lián)系信息、網(wǎng)絡中的受訪者缺位、或者允許報告的關系有數(shù)量上限時,可能會出現(xiàn)聯(lián)系缺失(missing ties)。對于這一問題,1)應評估缺失的程度;2)區(qū)分聯(lián)系究竟是信息缺失還是根本不存在;3)進行敏感性分析(sensitivity analysis),如An & Doan(2015)在完整網(wǎng)絡和簡化網(wǎng)絡(每個受訪者只使用前幾個指定聯(lián)系)上擬合ERGM;4)進行缺失聯(lián)系歸因(impute missing ties)。在沒有缺失連接的子網(wǎng)絡上擬合ERGM,使用估計值來估算缺失連接,然后對于在基于觀察的網(wǎng)絡、和基于估算的網(wǎng)絡上擬合ERGM,以提高估計的精度。 遺漏變量偏差(Omitted variable bias)、共線性(collinearity)和內(nèi)生性(endogeneity)。和傳統(tǒng)回歸模型一樣,ERGM同樣需要防止遺漏變量問題(Duxbury 2021b)。情境混淆是一個特別值得關注的問題,因為情境(鄰域特征)可以影響關系的形成。包含過多變量、尤其是高度相關的變量可能會導致多重共線性問題(Duxbury 2021a)。假設幸福是ERGM中的一個協(xié)變量。雖然幸福感可能會影響聯(lián)系的形成,但反之可能亦然,可通過工具變量(Clarke & Windmeijer 2012)或?qū)嶒灒↗iang等 2014)來識別幸福感的外生性變化。由于ERGM是參數(shù)模型,如果函數(shù)形式指定錯誤,估計值可能會有嚴重偏差。因此需要探索非參數(shù)方法,如通過匹配來估計網(wǎng)絡形成的反事實因果效應(構建除感興趣的協(xié)變量外具有相同協(xié)變量值的反事實組)。 自我中心(egocentric)網(wǎng)絡模型 自我中心網(wǎng)絡(簡稱“自我網(wǎng)絡”)通常通過調(diào)查收集數(shù)據(jù),由一個焦點節(jié)點(ego)和與其直接相連的節(jié)點(alters)組成。在使用傳統(tǒng)回歸分析對自我網(wǎng)絡進行建模時,可以通過使用自我的聚類標準誤(Comfort等 2021)、多級回歸模型來實現(xiàn)(Perry等 2018)??紤]到有時自報告數(shù)據(jù)也包括他人和他人的聯(lián)系,因此可根據(jù)自我和他人對標準誤差進行聚類,或使用考慮對自我和他人具有隨機效應的交叉分類模型(Perry等 2018,Snijders & Bosker 1999)。 雖然相較于社會中心網(wǎng)絡,自我中心網(wǎng)絡數(shù)據(jù)的收集效率更高,自我的隨機樣本更容易抽取,但也在網(wǎng)絡數(shù)據(jù)方面存在諸多局限:首先,在自我中心網(wǎng)絡數(shù)據(jù)集中,他人-他人的關系、他人-自我的關系和間接關系(路徑長度大于1的改變)通常缺失,這些網(wǎng)絡統(tǒng)計數(shù)據(jù)依賴于他人之間的聯(lián)系或完整的網(wǎng)絡信息(中間性和中心性度量、網(wǎng)絡密度)。為了緩解這一問題,可使用自我網(wǎng)絡統(tǒng)計數(shù)據(jù)來近似估計社會中心網(wǎng)絡的信息。此外,自我網(wǎng)絡聯(lián)系通常被記錄為無方向性的,因此只能識別主要的協(xié)變量效應;最后,自我中心網(wǎng)絡關系中可能存在更多的測量誤差,因為樣本可能會隨意報告,自報告信息難以驗證。 關系(relational)效應 (1)社會資本模型(Social Capital Model) 社會資本模型考察了社會關系如何提供社會資源和社會支持(Cook 2014)。經(jīng)濟社會學研究表明,社會關系(在招聘組織中認識某人)對獲得工作或更高的薪酬至關重要(Granovetter 1973,Bian 1997,F(xiàn)ernandez & Weinberg 1997,Lin 2001,Pinheiro & Dowd 2009,Dowd & Pinheiro 2013);社會關系可以提供各種形式的社會支持或壓力(Song 2011,Thoits 2011,Small 2013,Perry & Pescosolido 2015,Small & Sukhu 2016)。 對社會資本模型的爭議主要有三個方面:一是如何衡量社會資本。關系是否存在、關系的數(shù)量和強度(Bian 1997)、關系的多樣性(Uzzi 1999)均可用于社會資本,通過自我中心網(wǎng)絡獲得的特定資源也有多種測量方式(Molina等 2020)。二是混淆(confounding)問題。未觀測到的因素可能會影響社會資本,使得社會資本的估計效果產(chǎn)生偏差(Mouw 2006),對此可通過隨機化(randomization)或工具變量(instrument variables)加以處理。三是反向因果(reverse causality)。截面數(shù)據(jù)很難準確識別社會資本的效果,縱向數(shù)據(jù)則可被用以估計社會資本的滯后效應而非同期效應,以排除反向因果關系(Shalizi & Thomas 2011,VanderWeele等 2012)。 (2)社會傳染模型(Social Contagion Model) 社會傳染(社會影響、同伴效應)模型用于檢驗某一社會行為是否以及怎樣通過社會關系傳播和擴散(Marsden & Friedkin 1993,F(xiàn)riedkin & Johnsen 2011)。“死黨模型”(best friend model)是社會傳染理論下的一個代表模型,主要分析一個人的最好朋友的行為是否會傳遞給其本人(Christakis & Fowler 2007,Cohen Cole & Fletcher 2008,An 2015a)。 社會傳染模型的擴展主要有三種形式:一是考慮所有網(wǎng)絡中的對等節(jié)點(peer)(如教室里的所有學生)的平均水平,而不僅僅關注“最好朋友”的行為,即構建線性均值模型(linear-in-means model)(Manski 1993)。二是使用網(wǎng)絡中與自我(ego)存在聯(lián)系的對等節(jié)點(peer)的平均水平,以更好地分析與自我存在直接連接的節(jié)點的影響,并構建空間自回歸模型(spatial autoregressive model)或空間滯后模型(spatial lag model )(Friedkin & Cook 1990,O’Malley & Marsden 2008)。三是考慮網(wǎng)絡中與自我存在間接連接的節(jié)點影響(Christakis & Fowler 2007)或結構等效(structurally equivalent )對等節(jié)點的影響(存在相似網(wǎng)絡連接的節(jié)點)進行建模(Burt 1987,Moody & Mucha 2013)。 在因果推理方面,社會傳染模型也面臨四個挑戰(zhàn)。一是同伴自選擇導致的混淆問題(Confounding due to peer selection)?!拔业呐笥训男袨椤敝阅軌蛴绊憽拔业男袨椤?,可能是因為我和我的朋友本身就存在諸多相似點,所以我選擇讓他成為我的朋友。此外,因為平均數(shù)線性模型中并不把自己(ego)視為同伴們(peer group)的一部分,從而可能導致自我和同伴的行為之間的偽負相關關系(Caeyers & Fafchamps 2020)。二是遺漏變量導致的混淆問題(Confounding due to omitted variables),包括忽略共同環(huán)境(如相同社區(qū)或?qū)W校)的影響、忽略共同朋友的影響、以及忽略其他外生的同群影響。三是同時性(Simultaneity)。對于共同朋友來說,i的行為可以影響j的行為,而j的行為也會影響前者,導致其與εi相關,并導致內(nèi)生同伴效應估計中的同時性偏差。四是測量誤差(Measurement error)。 對于以上問題,主要有兩種解決方案:一是平衡外生性變化(leveraging exogenous variation)。其一是通過工具變量處理外生性變化。如將好友家中的吸煙環(huán)境作為好友吸煙狀況的工具變量(An 2015a),基于三角關系中的間接朋友的身份(status)作為直接聯(lián)系朋友身份的工具變量(Bramoullé等 2009),將最好朋友的遺傳因素作為測量最好朋友行為的工具變量(O'Malley等 2014),Estrada等(2021)和Reza等(2021)則使用外源網(wǎng)絡來測量內(nèi)源性網(wǎng)絡。 其二是通過特殊實驗設計識別同伴效應(An 2011,VanderWeele和2013),包括對同伴進行隨機化處理(randomized peer treatment)和隨機分配同伴(random assignment of peers)。前者即研究人員將處理(treatment)隨機分配給他人而不是自我(An 2015b)。如果實驗的處理效果從他人擴散到自我,就證明了同伴效應。但這一設計也面臨兩個問題:一是自我可能會同時受到不同人的影響并相互干擾,使得估計有偏;二是在某些情況下,實驗處理本身可能會改變潛在的社會網(wǎng)絡,對結果產(chǎn)生遞歸(recursive)影響(An 2015b,Comola&Prina 2021)。因此,以上兩種實驗設計分別考慮了基于現(xiàn)有社會關系的同伴效應,以及基于新的社會關系(即同伴的其他特征)的同伴效應。 二是糾正混淆問題??墒紫扔肊RGM對關系形成(tie formation)(第一階段)進行建模(An 2011, Hsieh等 2020),在網(wǎng)絡效應(第二階段)中使用赫克曼選擇模型(Heckman selection )(Goldsmith Pinkham & Imbens 2013,Arduini等 2015,Hsieh & Lee 2016)或匹配方法(Aral等 2009)、關注自我和他人行為的滯后性(Christakis & Fowler 2007)以進行校正。對于縱向網(wǎng)絡數(shù)據(jù),還可使用SAOM隨機過程對網(wǎng)絡和行為的縱向演化過程進行建模(Snijders 2001 2011,Steglich等 2010)。 對于觀察性數(shù)據(jù)(observational data),基于固定效應模型的估計可能會使得滯后結果和轉(zhuǎn)化后的干擾(transformed disturbance )間產(chǎn)生相關性(Nickell 1981),使估計產(chǎn)生偏差。為避免同時性問題,研究人員可以估計滯后效應或利用同伴行為中的外源性變化,并關注集體性的變化(Lee 2007,Davezies等 2009)、個體特定網(wǎng)絡結構的變化(Bramoulléet等 2009)、設置參數(shù)約束(Graham 2008,Arcidiacono等 2012,Rose 2017)。 但目前,有幾個問題仍懸而未決。一是揭示同伴效應的異質(zhì)性,例如自我和他人特征(種族和性別)以及自我-他人關系特征(如友誼持續(xù)時間和強度),二是確定同伴效應的潛在機制,三是在方法層面需要提供社會傳染理論以外的解釋跨單位結果依賴性的機制,四是探索網(wǎng)絡效應的非參數(shù)識別。 位置效應 位置效應(Positional effects) 是指個體在網(wǎng)絡中所處的位置是否以及在多大程度上影響其結果。已有研究指出確定了受歡迎程度和隔離效應(popularity and isolation effects)(Schaefer等 2010,Copeland等 2017)以及在社交網(wǎng)絡中連接個體的brokerage位置的效應(Gould & Fernandez 1989,Burt 1995,Cornwell 2009,Everett & Valente 2016,Greenberg 2021)。在建模方面,研究網(wǎng)絡位置的因果效應相當于用社會資本模型中的位置度量取代社會資本指標。因此,網(wǎng)絡內(nèi)生性(在網(wǎng)絡中占據(jù)特殊位置的個體傾向于選擇這些位置)和上下文混淆(決定網(wǎng)絡位置和結果的變量遺漏)是識別位置效應因果機制的兩個主要障礙。 結構效應 個體結果也會受到網(wǎng)絡宏觀特征的影響,如凝聚力(cohesion)描述了網(wǎng)絡的連接密度,并主要通過網(wǎng)絡的密度系數(shù)或平均地理距離(即兩個節(jié)點之間的最短路徑)來衡量(Moody & White 2003)。層次結構(hierarchy)描述了網(wǎng)絡聯(lián)系在參與者之間不均勻分布的程度,通常通過網(wǎng)絡的集中系數(shù)(centralization coefficient )和互惠系數(shù)(reciprocity coefficient)來衡量,已有研究表明更集中的網(wǎng)絡有助于形成基于單次接觸的擴散(Barrat等 2008)。聚類(clustering)描述了網(wǎng)絡的局部集中程度,并通過網(wǎng)絡的全局或局部聚類系數(shù)來衡量。已有研究表明,局部聚類有助于基于多重聯(lián)系的復雜擴散(Centola 2010)。網(wǎng)絡構成(composition)(種族、性別、年齡和其他因素)也會影響個人結果(DiMaggio & Garip 2012,McFarland等 2014)。隨機性檢驗(Randomization tests)可通過隨機排列鄰接矩陣的行/列,將選定的網(wǎng)絡特征與隨機網(wǎng)絡進行比較,以評估網(wǎng)絡是否具有某些結構特征。為了研究結構性因果效應,可以使用結構特征來替代社會資本指標,尤其需要關注語境混淆和反向因果關系(即個體影響網(wǎng)絡結構),還可以使用多元回歸模型來改善統(tǒng)計結果。 五、結論 在過去十年,研究社會網(wǎng)絡如何形成及其如何影響個人結果的實證模型和方法取得了巨大進展。 我們提出了因果性網(wǎng)絡分析未來發(fā)展的四個方向。 首先,更準確地測量網(wǎng)絡聯(lián)系和個人行為結果。更精確地確定聯(lián)系的含義(Kitts & Leal 2021)、使用多個數(shù)據(jù)源(來自多個受訪者的報告、定時互動數(shù)據(jù)、社交媒體數(shù)據(jù)和多重聯(lián)系信息),有助于改進測量。此外,未來的研究應考慮采用敏感性分析來解決不確定或缺失的關系(Fisher 2019)。 其次,理解網(wǎng)絡形成和網(wǎng)絡效應的機制。關于網(wǎng)絡形成機制,Wimmer&Lewis(2010)認為內(nèi)生性聯(lián)系的形成過程可能是協(xié)變量效應(covariate effects)的競爭機制或中介機制,因此未來研究需要進一步區(qū)分這兩種機制。此外,應進一步研究聯(lián)系消解的機制,因為它們可能不同于聯(lián)系的形成機制(McDermott et al.2013)。未來的研究也需要進一步分析關系、位置和結構效應如何同時發(fā)揮作用。 第三,需要實驗研究(實驗室、現(xiàn)場或在線實驗)以確定網(wǎng)絡分析中的因果關系,并在不同環(huán)境下對結果進行三角化測量,網(wǎng)絡實驗也可以專門設計來進行更有效的社會干預(An 2015b)。 最后,需要解釋網(wǎng)絡形成和網(wǎng)絡效應中的顯著異質(zhì)性,即考慮時間、空間、協(xié)變量、不同類型的聯(lián)系以及網(wǎng)絡中的不同區(qū)域?qū)πЧ挠绊憽>W(wǎng)絡生態(tài)學(network ecology)理論(Entwisle等 2007,Small 2007,McFarland等 2014)能夠成為一個抓手。 ?Political理論志 |
|