作者:鄭鏗城,經(jīng)濟(jì)學(xué)博士,數(shù)學(xué)建模指導(dǎo)教練 開(kāi)頭,和大家講個(gè)笑話 spss軟件在數(shù)據(jù)處理分析中有較廣的運(yùn)用,適合各類(lèi)學(xué)習(xí)群體,就算學(xué)習(xí)者不會(huì)編程,也可以通過(guò)spss軟件實(shí)現(xiàn)數(shù)據(jù)的處理和模型的建立。以下歸納了spss軟件中一些比較常用的功能和操作步驟,全是干貨哦! 1.熟悉變量窗口和數(shù)據(jù)窗口 數(shù)據(jù)窗口是我們打開(kāi)spss一開(kāi)始時(shí),其頁(yè)面所展現(xiàn)的窗口,主要用于輸入相關(guān)的數(shù)據(jù),在其頁(yè)面中有相關(guān)的操作欄項(xiàng)目,可以進(jìn)行對(duì)數(shù)據(jù)的具體分析。如下: 對(duì)于變量窗口,是對(duì)數(shù)據(jù)的變量做相應(yīng)的改動(dòng)調(diào)整的窗口,包括對(duì)數(shù)據(jù)的名稱、類(lèi)型、寬度、小數(shù)位、標(biāo)簽、度量標(biāo)準(zhǔn)等等。 在spss左下方有變量窗口和數(shù)據(jù)窗口的轉(zhuǎn)換按鈕,即可選擇不同的窗口進(jìn)行操作: 2.學(xué)會(huì)數(shù)據(jù)輸入 數(shù)據(jù)輸入有兩種,一種是手動(dòng)輸入數(shù)據(jù),一種是通過(guò)已經(jīng)有的excel數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行鍵入。手動(dòng)輸入比較簡(jiǎn)單,就是在數(shù)據(jù)窗口把自己想要用的數(shù)據(jù)打入即可,然后點(diǎn)擊左下方選擇變量窗口,對(duì)數(shù)據(jù)的屬性進(jìn)行相應(yīng)的調(diào)整。對(duì)于使用已經(jīng)有的數(shù)據(jù),并把數(shù)據(jù)鍵入,要注意以下問(wèn)題: 首先數(shù)據(jù)是以列來(lái)排序,即每一列代表一種數(shù)據(jù),如果你的數(shù)據(jù)是每一行代表一種,那么你需要對(duì)你的數(shù)據(jù)進(jìn)行轉(zhuǎn)置處理。 比如我們鍵入以下數(shù)據(jù): 那么在spss窗口中,點(diǎn)擊“文件”--“打開(kāi)”--“數(shù)據(jù)” 選擇想要鍵入的數(shù)據(jù),會(huì)彈出這樣一個(gè)頁(yè)面,注意,要選擇打鉤。 初試數(shù)據(jù)鍵入以后,效果是這樣的: 我們可以點(diǎn)擊到變量窗口,進(jìn)行相關(guān)的調(diào)整,使數(shù)據(jù)看起來(lái)更加的好看一點(diǎn),比如統(tǒng)一小數(shù)位,調(diào)整數(shù)據(jù)所在行的寬度等,結(jié)果如下: 3.數(shù)據(jù)管理 這個(gè)就很簡(jiǎn)單了,一些相關(guān)的參考書(shū)中,主要講了把數(shù)據(jù)進(jìn)行縱向和橫向的合并,對(duì)數(shù)據(jù)進(jìn)行拆分,對(duì)數(shù)據(jù)進(jìn)行匯總,對(duì)數(shù)據(jù)進(jìn)行加權(quán),對(duì)數(shù)據(jù)進(jìn)行查找。這些都很簡(jiǎn)單,比較有意思的應(yīng)該是數(shù)據(jù)的匯總和加權(quán),數(shù)據(jù)匯總可以通過(guò)數(shù)據(jù)的均值、中值、總和、標(biāo)準(zhǔn)差等標(biāo)準(zhǔn)進(jìn)行匯總,數(shù)據(jù)的加權(quán)通過(guò)“數(shù)據(jù)”--“加權(quán)個(gè)案”實(shí)現(xiàn)。 4.統(tǒng)計(jì)描述分析 用spss進(jìn)行統(tǒng)計(jì)描述分析,主要有三個(gè)板塊,一個(gè)是頻數(shù)分布描述;一個(gè)是描述性統(tǒng)計(jì)分析;一個(gè)是探索性分析。 首先講一下頻數(shù)分布:頻數(shù)分布就是用來(lái)對(duì)數(shù)據(jù)的集中趨勢(shì)和離散程度進(jìn)行描述,通過(guò)頻數(shù)分布圖、條圖和直方圖等,來(lái)更加形象的說(shuō)明數(shù)據(jù)的分布特征。步驟是:“分析”--“描述統(tǒng)計(jì)”--“頻率”,通過(guò)相應(yīng)程序的操作,假設(shè)輸入以下數(shù)據(jù): 通過(guò)頻數(shù)分布描述的spss步驟運(yùn)行,同時(shí)進(jìn)行相關(guān)的設(shè)置: 得到的結(jié)果如下: 上圖反映的是這些輸入數(shù)據(jù)的均值、中值、眾數(shù)等特性。 上圖反映的是頻率的一個(gè)情況,可以清楚的看出每個(gè)型號(hào)都頻率。 最后也得出了上圖這個(gè)直方圖。 然后我們來(lái)說(shuō)一下描述性統(tǒng)計(jì)分布,命令為:“分析”--“描述統(tǒng)計(jì)”--“描述”。這個(gè)主要也是用來(lái)計(jì)算描述集中趨勢(shì)和離散趨勢(shì)的各種統(tǒng)計(jì)量。(此外還有一個(gè)重要的功能是進(jìn)行標(biāo)準(zhǔn)化變換即Z變換),這個(gè)和上面那個(gè)頻數(shù)分布其實(shí)大同小異吧,都是用來(lái)體系數(shù)字的特征的。 舉個(gè)栗子,我鍵入以下數(shù)據(jù),進(jìn)行描述性分析: 通過(guò)的運(yùn)行,最終得出的結(jié)果如下圖: (確實(shí),也就是各類(lèi)統(tǒng)計(jì)量,像極大值極小值標(biāo)準(zhǔn)差等) 最后,該部分的最后一個(gè)版塊,即探索性分析,這個(gè)的話是建立在對(duì)數(shù)據(jù)有一定的了解的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行更加深入的分析(你可以理解為這種方法做出的圖看起來(lái)更加牛逼了) 舉個(gè)栗子,我還是用一些數(shù)據(jù)進(jìn)行操作: spss命令為:“分析”--“描述性統(tǒng)計(jì)”--“探索”。操作如下: 最終得到的結(jié)果: 上面這個(gè)當(dāng)然就是簡(jiǎn)單的數(shù)據(jù)描述。 還有一個(gè)以“南北”分開(kāi)進(jìn)行的描述。 還可以得到一個(gè)這樣的圖: 還可以操作出莖葉圖等圖形。 在前面的操作中,我們從輸出窗口可以看到代碼,其實(shí)這就是spss的運(yùn)行代碼,系統(tǒng)自動(dòng)生成的,如果你是用spss進(jìn)行建模寫(xiě)作的話,這些代碼就可以復(fù)制到你的論文的附錄部分。如: 5.均值檢驗(yàn) 均值檢驗(yàn)也叫means檢驗(yàn),很好理解,就是求數(shù)值均值的過(guò)程,在spss中的命令為“分析”--“比較均值”--“均值”,這個(gè)比較easy,也好理解,就不做例子。 這個(gè)比較均值窗口中包括了像單樣本T檢驗(yàn),獨(dú)立樣本T檢驗(yàn),配對(duì)樣本T檢驗(yàn)和單因素分析,這些內(nèi)容其實(shí)也是大同小異,可以輸入數(shù)據(jù)嘗試輸出結(jié)果,總結(jié)一點(diǎn):在輸出結(jié)果中要看到sig值,也就是我們說(shuō)的P值,這個(gè)值如果是小于0.05的(顯著性一般為0.05),那么就表明兩個(gè)數(shù)據(jù)個(gè)體是有差異的。你也可以從概率的角度來(lái)理解(p值如果小于顯著性水平,則應(yīng)該拒絕原假設(shè),認(rèn)為樣本之間存在差異)。當(dāng)然我們也可以對(duì)這些概率做一個(gè)區(qū)分: 單樣本T檢驗(yàn)的目的是利用某總體的樣本數(shù)據(jù),推斷該總體的均值是否與指定的檢驗(yàn)值存在顯著性差異; 獨(dú)立樣本T檢驗(yàn)的目的是利用兩個(gè)總體獨(dú)立的樣本,推斷兩個(gè)總體的均值是否有差異。 匹配樣本T檢驗(yàn)的目的是用兩個(gè)不同的總體的配對(duì)樣本,來(lái)推斷兩個(gè)總體的均值是否存在差異。 其實(shí)吧,都是在分析兩個(gè)東西的差異性。怎么從他輸出的結(jié)果來(lái)看呢,其實(shí)就抓住P值來(lái)分析即可。 6.方差分析 在比較兩組資料的均數(shù)是否相等的時(shí)候,可以采用的是T檢驗(yàn),當(dāng)組數(shù)大于等于3的時(shí)候,就應(yīng)該使用方差分析。方差分析的原理不再贅述。在進(jìn)行方差分析中,要學(xué)會(huì)通過(guò)LSD方法看出組數(shù)之間的差異。 具體命令:“分析”--“比較均值”--“單因素ANOVA” 在設(shè)置對(duì)話框中選擇LSD方法,從輸出結(jié)果來(lái)進(jìn)行分析。 舉個(gè)栗子:有三組企業(yè)和對(duì)應(yīng)的壽命: 利用單因素ANOVA方法,選取LSD進(jìn)行操作 得到的結(jié)果如下: 由上表可知顯著性的大小為0.05,那么如果兩個(gè)組別的顯著性大小比0.05大,則接受原假設(shè),認(rèn)為兩個(gè)組別是無(wú)差異的,那么通過(guò)上表可以看出1組和3組是無(wú)差別的,1組合2組是有差別的,2組合3組也是有差別的。 7.利用spss進(jìn)行繪圖 繪圖操作是一項(xiàng)重要技能,利用spss進(jìn)行繪圖,操作簡(jiǎn)單快捷,只需要對(duì)數(shù)據(jù)進(jìn)行選擇,然后點(diǎn)擊自己想要繪制的圖形格式即可。 當(dāng)然繪圖的時(shí)候你數(shù)據(jù)窗口中要有數(shù)據(jù),具體可以自己實(shí)驗(yàn)一下。 假設(shè)我們要繪制一個(gè)時(shí)間為橫坐標(biāo),GDP為縱坐標(biāo)的二維直方圖,即可進(jìn)行操作得到如下結(jié)果: 當(dāng)然在第二個(gè)繪圖指令中,還可以進(jìn)行這樣的操作: 你選擇幾個(gè)變量,就會(huì)有相應(yīng)的幾維圖形。(最多構(gòu)造三維哦) 在繪圖中,點(diǎn)擊“舊對(duì)話框”會(huì)顯示下面內(nèi)容: 同理根據(jù)自己的需求進(jìn)行圖形的繪制。 8.缺失值分析 理解這個(gè)很簡(jiǎn)單,就是我們?cè)跀?shù)據(jù)收集的過(guò)程中,可能存在數(shù)據(jù)的缺失,那么數(shù)據(jù)的缺失就會(huì)對(duì)我們的處理結(jié)果造成一定的影響。利用spss軟件對(duì)缺失值進(jìn)行處理,使我們分析的相關(guān)結(jié)果更加合理。 對(duì)缺失值的處理方法有很多,包括什么直接刪除法、或者用什么數(shù)據(jù)來(lái)進(jìn)行替代,也可以用EM或者回歸的方法,從未缺失的數(shù)據(jù)分布情況中推算出缺失的數(shù)據(jù)的估計(jì)值?!胺治觥?-“缺失值分析” 首先我對(duì)之前的那份GDP數(shù)據(jù)進(jìn)行故意挖空,形成缺失現(xiàn)象,便于進(jìn)行分析: 主要挖了三處空,然后利用spss缺失值分析中的EM進(jìn)行數(shù)據(jù)的缺失處理,得到下圖: 這樣就完成了缺失值的處理,當(dāng)然也可以用回歸的方法。 9.簡(jiǎn)單線性回歸和相關(guān)性分析 先講相關(guān)性,相關(guān)性用r表示,r值為正則正相關(guān),反之則為負(fù)相關(guān)。r的絕對(duì)值越大,則相關(guān)性越強(qiáng)??梢杂胹pearman等級(jí)相關(guān)系數(shù)來(lái)看相關(guān)程度。 舉個(gè)栗子:利用下面數(shù)據(jù)做相關(guān)性分析并構(gòu)造回歸模型。 當(dāng)然kendall和pearson相關(guān)系數(shù)也是可以表示相關(guān)性的,都差不多。 通過(guò)這個(gè)pearson相關(guān)系數(shù)(等于0.971)可以看出兩個(gè)變量的相關(guān)性很強(qiáng)! 得到的spearman系數(shù)和kendall系數(shù)也是接近于1的,表明兩個(gè)變量之間確實(shí)存在的正的相關(guān)性。再利用回歸方法確定出模型: 如下圖所示進(jìn)行相關(guān)設(shè)置: 進(jìn)行操作,得到的結(jié)果如下: 通過(guò)上表,則我們的回歸模型為:(設(shè)患病率為Y,碘含量為X) Y=17.484 4.459X。 10.Logistic回歸模型 如果要分析的數(shù)據(jù)是分類(lèi)變量,那么可以采取logistic回歸模型對(duì)數(shù)據(jù)進(jìn)行分析,首先講一下二項(xiàng)分類(lèi)的logistic回歸,該模型的方程為: P=1/(1 EXP(-b0 b1x1 b2x2 ... bnxn)) 通過(guò)spss確定出上述方程的系數(shù),即可確定出該模型。 舉個(gè)栗子: 查看變量窗口: y表示康復(fù)情況,y=0則是沒(méi)有康復(fù),y=1則是康復(fù),x1表示病情的嚴(yán)重程度,x1=0則表示病情不嚴(yán)重,x1=1則表示病情嚴(yán)重。x2表示療法,x2=0則表示新療法,x2=1則表示舊療法。 并進(jìn)行如下設(shè)置: 結(jié)果為: 通過(guò)上表,可以得到二元logistic回歸模型為: P(Y=1)=1/(1 EXP(-0.928-0.909X1-1.669X2)) 即療法的新舊對(duì)于康復(fù)情況是有影響的,當(dāng)療法比較就新的時(shí)候,康復(fù)的概率會(huì)更高一點(diǎn)。 當(dāng)然logistic回歸除了有二項(xiàng)的以外,還有有序的logistic回歸,條件logistic回歸等。方法類(lèi)似。 方法總結(jié),對(duì)于該部分的logistic回歸方程,首先你要確定你要使用哪個(gè)類(lèi)型的logistic回歸模型,然后去尋找該模型的一個(gè)表達(dá)式,再通過(guò)spss軟件,求出系數(shù),把系數(shù)代入表達(dá)式,即可構(gòu)造出模型。比如上述中確定了二項(xiàng)logistic回歸的表達(dá)式: 那么通過(guò)spss確定系數(shù)以后,代入表達(dá)式即可得出模型。 11.聚類(lèi)方法 物以類(lèi)聚,人以群分。對(duì)數(shù)據(jù)或者樣本進(jìn)行聚類(lèi),了解對(duì)象的類(lèi)別,具有一定的探索性。聚類(lèi)的原理是什么呢,很簡(jiǎn)單,就是通過(guò)距離和相似系數(shù)進(jìn)行聚類(lèi),其原理不再說(shuō)明。 常用的有k均值聚類(lèi)和系統(tǒng)聚類(lèi)。 舉個(gè)栗子: 對(duì)以上數(shù)據(jù)進(jìn)行聚類(lèi):“分析”--“分類(lèi)”-“k-均值聚類(lèi)” 同時(shí)確定分類(lèi)數(shù): 由于設(shè)置的是聚類(lèi)成兩類(lèi),所以結(jié)果顯示如下: 可以看出不同案例號(hào)對(duì)應(yīng)的類(lèi)別,當(dāng)然你也可以嘗試設(shè)置成4類(lèi)等,看看結(jié)果會(huì)發(fā)生什么變化。(如下) 也可以進(jìn)行系統(tǒng)聚類(lèi):比如對(duì)這些數(shù)據(jù)進(jìn)行系統(tǒng)聚類(lèi): 得到的一個(gè)垂直冰柱圖和樹(shù)狀圖: 12.主成分分析、因子分析 這里用的是一個(gè)降維的思想,從一堆變量中,選取出一些主要變量進(jìn)行分析。主要還是通過(guò)特征根的大小來(lái)衡量。 主成分分析和因子分析到底有什么異同?大家可以先自行了解一下,提示:主成分分析實(shí)質(zhì)是線性變換,無(wú)假設(shè)檢驗(yàn),因子分析是統(tǒng)計(jì)模型,有些因子模型可以做假設(shè)檢驗(yàn),其次主成分分析在spss操作中不需要旋轉(zhuǎn),而因子分析則需要旋轉(zhuǎn)。 舉一個(gè)因子分析例子,并通過(guò)構(gòu)造碎石圖、做球形檢驗(yàn)和旋轉(zhuǎn)來(lái)看看因子分析的具體操作: 其x1到x9分別表示: 選擇“分析”--“降維”--“因子分析”:得到的結(jié)果如下: 碎石圖怎么看?看斜率,前3的成分的斜率比較陡峭,故可以用前三個(gè)元素來(lái)代表所有元素。 從球形檢驗(yàn)這個(gè)表,可以看出KMO值大于最低標(biāo)準(zhǔn)0.5,所以適合做因子分析,同時(shí)P值小于0.001,適合做因子分析。 也可以看到?jīng)]有旋轉(zhuǎn)之前的成分矩陣和旋轉(zhuǎn)以后的成分矩陣: 那么我們就可以去說(shuō)明前3個(gè)因子中,他們各自的什么含量成分比較大,同時(shí)進(jìn)行相應(yīng)的說(shuō)明。 13.信度分析 這個(gè)方法是用在調(diào)查問(wèn)卷中的,信度就是反應(yīng)測(cè)量結(jié)果的一致性和穩(wěn)定性。在spss中的操作為“分析”--“度量”--“可靠性分析” 做一個(gè)例子分析: 對(duì)上表的結(jié)果做一個(gè)信度分析: 得到信度結(jié)果: cronbach“阿發(fā)”的系數(shù)為0.811,故該試卷的信度較好。從下面這個(gè)表,可以看出: 有一個(gè)crobanch的系數(shù)值大于0.811,這個(gè)就表明:如果在試卷中刪除名解的話,會(huì)提高試卷的信度值。 最后再講一個(gè)生存分析和Cox模型: 生存分析是把生存時(shí)間和生存結(jié)果綜合起來(lái),對(duì)數(shù)據(jù)進(jìn)行分析的一種統(tǒng)計(jì)方法。舉個(gè)栗子就懂了:(數(shù)據(jù)如下) 通過(guò)“分析”--“生存函數(shù)”--“壽命表”得到: Cox模型:可以建立生存時(shí)間和危險(xiǎn)因素之間的依存關(guān)系的模型。 命令:“分析”--“生存函數(shù)”--“COX回歸” 學(xué)完SPSS,對(duì)數(shù)據(jù)量化分析有了進(jìn)一步的了解,SPSS不僅可以用在建模,也可以用在論文研究等領(lǐng)域,覺(jué)得ok就分享給身邊的同學(xué)吧! |
|
來(lái)自: 東西二王 > 《數(shù)據(jù)分析》