In today's class, you showed us that our initial sample had too many young respondents so that you weighted the sample to make it more representative of the population. How did you do that -- did you make the young people less young? (老師,你今天在課堂上演示,我們的調(diào)查樣本中年輕人太多,你通過加權(quán)提高了樣本對(duì)總體的代表性。請(qǐng)問你是如何加權(quán)的,比如將年輕人變成不太年輕?)
Weighting(加權(quán))主要用于兩種情況:一、如果原始樣本是 Probability Non-Proportionate to Size (NPPS,或非等比隨機(jī)抽樣),如我曾參與過的一個(gè)中國(guó)女記者調(diào)查,為了比較,需要同時(shí)抽取男記者,而根據(jù)人事部登記資料,當(dāng)時(shí)全國(guó)男女記者之比大約為2:1,如果采用PPS (Probability Proportionate to Size,等比隨機(jī)抽樣), 那么在抽取的樣本中我們的主要研究對(duì)象(女記者)只有三分之一,顯然沒有很好的利用資源。因此我們?cè)诔闃訒r(shí)用NPPS,將男女比例反過來為1:2,抽取樣本中三分之二為女性。當(dāng)我們?cè)谟?jì)算中國(guó)記者(即男女全在內(nèi))的基本情況,如教育程度、工作經(jīng)驗(yàn)、擔(dān)任職務(wù)、跳槽意向等等時(shí),必須先將樣本按總體參數(shù)(在本例中是人事部記者登記資料中的男女之比)進(jìn)行加權(quán)。我2000-02年在北京和廣州做互聯(lián)網(wǎng)使用調(diào)查時(shí),用了一種更復(fù)雜的NPPS抽樣方法,其結(jié)果也一定要先加權(quán)(以后有機(jī)會(huì)詳細(xì)介紹那個(gè)抽樣過程)。
需要加權(quán)的另一種情況是原始樣本為PPS而產(chǎn)生,但因?yàn)槌晒β什桓叨鋵?dǎo)致樣本的某些階層過少另些階層(相對(duì))過多。以下是這次調(diào)查的年齡分布與總體相應(yīng)參數(shù)之比較:
表一、樣本年齡分布與總體年齡分布之比較
Age |
1. Population |
2. Sample N |
3. Sample % |
4. S/P (=3/1) |
5. P/S (=1/3) |
6. Weighted Sample N (=2X5) |
7. Weight Sample % |
18 - 19 |
3.3% |
110 |
10.5% |
3.16 |
0.316 |
35 |
3.3% |
20 - 24 |
8.7% |
140 |
13.4% |
1.53 |
0.655 |
92 |
8.7% |
25 - 29 |
9.5% |
119 |
11.4% |
1.20 |
0.836 |
99 |
9.5% |
30 - 34 |
10.4% |
101 |
9.6% |
0.93 |
1.077 |
109 |
10.4% |
35 - 39 |
10.9% |
96 |
9.2% |
0.84 |
1.188 |
114 |
10.9% |
40 - 44 |
12.6% |
149 |
14.2% |
1.13 |
0.886 |
132 |
12.6% |
45 - 49 |
12.4% |
107 |
10.2% |
0.82 |
1.217 |
130 |
12.4% |
50 - 54 |
10.3% |
82 |
7.8% |
0.76 |
1.321 |
108 |
10.3% |
55 - 59 |
8.2% |
51 |
4.9% |
0.60 |
1.677 |
86 |
8.2% |
60 - 64 |
4.9% |
37 |
3.5% |
0.73 |
1.376 |
51 |
4.9% |
65 - 69 |
4.4% |
27 |
2.6% |
0.58 |
1.724 |
47 |
4.4% |
70 - 74 |
4.4% |
29 |
2.8% |
0.63 |
1.577 |
46 |
4.4% |
Total |
100.0% |
1048 |
100.0% |
1.0* |
1.0* |
1048 |
100.0% |
* Weighted Mean |
上表第4列 (S/P) 是用各年齡組在樣本中占的比例除以其在總體中占的比例,其值越接近1、說明該年齡組在樣本中的比重越合適(如30-34歲、40-44歲等);反之,其值越背離1,其在樣本中的比重越不合適(如18-19歲、20-24歲等過多,55歲以上過少)。
是否需要對(duì)其進(jìn)行調(diào)整 (adjustment or re-scaling) 呢?應(yīng)該而且可以。這種調(diào)整,就是加權(quán)。首先要確定加權(quán)的起點(diǎn)是什么?這里有三種選擇:
A. 以S/P的最大值(如本例的3.2)為起點(diǎn),將其他組的S/P值都提高到這個(gè)水平(具體做法暫不介紹),這種策略叫做Scale-up weighting(“水高船漲”法)。其結(jié)果也就是將原來的樣本放大S/P最大值倍(本例3.16倍,原樣本1048人,加權(quán)后會(huì)增至3312人),可見水分太大,不可取。
B. 以S/P的最小值(本例0.58)為起點(diǎn),將其他組的S/P值都降低到這個(gè)水平,因此叫做Scale-down weighting(“水落石出”法)。其結(jié)果是將原樣本縮小S/P最小值倍(本例0.58,原樣本1048人,加權(quán)后減至608),放水過多,也不合適。
C. 以S/P的加權(quán)平均值(不用算,一定是1)為起點(diǎn),將大于1的S/P值調(diào)低至1而將小于1的S/P值調(diào)高至1,因此叫做Zero-sum weighting(“有增有減但總數(shù)不變”法)。加權(quán)后的樣本數(shù)與原樣本相同、還是1048(見表一第6列)??梢娺@種方法相比之下最合理,學(xué)術(shù)界和調(diào)查業(yè)界通常都用它來加權(quán)。
具體操作共有四步:
1. 計(jì)算總體有關(guān)參數(shù)(如表一第2列總體年齡分布P),如果沒有這種參數(shù),則無法加權(quán);
2. 計(jì)算樣本相應(yīng)統(tǒng)計(jì)量(如表一第3列樣本年齡分布S);
3. 計(jì)算S與P之比(即表一第4列S/P值)的倒數(shù)(其實(shí)就是第5列的P/S),這就是我們將的weighting factor (“權(quán)重”或“權(quán)數(shù)”);
4. 對(duì)樣本每一個(gè)案,按其年齡組的值,乘以權(quán)數(shù)。
第1至3步需要手工在Excel中算好(當(dāng)然,如果你會(huì)寫SPSS syntax并知道如何使用其中aggregate、match files等技巧,也可以在SPSS中算好;我一直用后者做的,但比較復(fù)雜,暫不推薦)。第4步可以而且必須在SPSS中做。以下是有關(guān)操作(假定年齡組變量名為AGEGROUP、樣本數(shù)據(jù)中已存在;權(quán)數(shù)取名為W,但樣本數(shù)據(jù)中還沒有這個(gè)變量):
4a. 點(diǎn)擊Transform/Compute,在Target Variable中輸入“W”,在Numeric Expression中輸入"0.316"(是18-19歲組的權(quán)數(shù)),并點(diǎn)擊If ... (optional case selection condition) (見圖一),
4b. 選擇Include if case selection condition、再選AGEGROUP、輸入 "=" 和 "1"(即年齡等于18-19歲組)(見圖二),然后Continue、OK。
4a和4b創(chuàng)建了一個(gè)新變量W、并賦予18-19歲組的每一個(gè)案一個(gè)相同的權(quán)數(shù)(0.316)。你需要對(duì)其他年齡組分別重復(fù)4a和4b。很不好玩,而且很容易出錯(cuò)。如你懂寫syntax,整個(gè)過程可以用上述幾句就可以完成:
IF AGEGROUP=1 W=0.316.
IF AGEGROUP=2 W=0.655.
...
IF AGEGROUP=12 W=1.577.
4c. 有了權(quán)數(shù),就可以對(duì)樣本加權(quán)了。點(diǎn)擊Data/Weight Cases,點(diǎn)擊Weight cases by ...,選擇W,再OK,就大功告成 (圖三)。
如果寫syntax,那就更簡(jiǎn)單:
WEIGHT BY W.
如果有需要取消加權(quán),只需回答圖三,點(diǎn)擊“Do not weight cases",或者寫一句
WEIGHT OFF.
這是W還在你的數(shù)據(jù)中,只是沒有被啟用而已。
最后需要記住以下幾個(gè)注意事項(xiàng):
一、加權(quán)不是神丹妙藥,加權(quán)只能調(diào)整樣本各組之間的相對(duì)比例、并不會(huì)產(chǎn)生任何新的信息。所以,如果樣本中某些組是研究重點(diǎn)(如我前面提到的女記者或互聯(lián)網(wǎng)用戶),絕不應(yīng)該通過加權(quán)的方法來提高其在樣本中的比重(反之可以)。
二、與之有關(guān)的一個(gè)重要細(xì)節(jié)是如果S/P值中有小于0.5(也即P/S值或權(quán)數(shù)大于2)的,則不能靠過分灌水來解決問題。這時(shí)的對(duì)策有三:增加那些under-sampled組別的個(gè)案數(shù)(上策);用Scale-down的策略來加權(quán)(最保守、浪費(fèi)資源、但不犯type I錯(cuò)誤);前兩者的結(jié)合,即增加部分個(gè)案數(shù)然后按新的最小S/P值來個(gè)水落石出。
三、與此相仿的是如果那些under-sampled的組個(gè)案數(shù)太少(一般說來不能少于30),需要按同樣的原則來處理。
四、為了便于解釋,上述例子只涉及一個(gè)變量(年齡)的加權(quán)。實(shí)際上,除了年齡,性別、教育程度和職業(yè)也很重要。所以需要用多個(gè)變量同時(shí)加權(quán) (weighted by several variables simultaneously)。所謂”同時(shí)加權(quán)“是計(jì)算樣本和總體的有關(guān)多變量交叉分布,然后算出各自S/P值及其倒數(shù)。以年齡和性別的雙變量同時(shí)加權(quán)為例,表一中就應(yīng)該有24行(即12個(gè)年齡組 X 2個(gè)性別組)。我對(duì)本例數(shù)據(jù)的加權(quán)就是用年齡和性別的交叉分布來做的。
國(guó)內(nèi)人口統(tǒng)計(jì)結(jié)果一般只公布年齡、性別、教育等的單項(xiàng)分布,這就無法做多變量加權(quán)。你如果先按年齡加權(quán)、再按性別加權(quán),后者會(huì)取消前者,結(jié)果還是單變量加權(quán)。這個(gè)問題如何解決?這不是技術(shù)問題。因?yàn)槿丝诮y(tǒng)計(jì)的交叉分布數(shù)據(jù)是存在的(或者可以很容易的算出來的),也不是國(guó)家機(jī)密(既然單項(xiàng)分布可以公開、為什么交叉分布不可以?)。要看你的公關(guān)(攻關(guān)?)能力去搞到它了。