拿到一份問卷數(shù)據(jù),該如何著手分析呢?且慢,要做分析得先檢查數(shù)據(jù)是不是完整、可信,所以先從數(shù)據(jù)清洗開聊。 (1)一份數(shù)據(jù)可能經歷過編碼、合并、拆分等,先檢查數(shù)據(jù)是否完整,是否有異常值? 選擇題、排序題這類封閉題型的答案是有限制范圍的,針對這類題型,在spss內使用頻率統(tǒng)計功能,查看每個題目的總量,缺失值,是否有異常值。比如:性別只有1、2兩個選項,出現(xiàn)其他選項則說明有問題。有個小技巧,在Excel中可以使用篩選功能,快速查看每個題目的結果是否有異常值。 (2)有些用戶可能會不認真填答,因此需要檢查邏輯合理性,是否有前后矛盾的情況? 有些問卷,前后題目有邏輯關系,可以用這類題目做測謊題,篩選出前后矛盾的答案,比如前邊用戶選擇了主要的出行方式是“自己開車”,后邊卻選擇自己的年齡“小于18歲”,那么這類問卷可以視為不認真填答的,刪除。 如果沒有合適的題目做測謊題,也可以在編制問卷的時候設置測謊題,兩種設計思路: 同一個題目前后問兩遍,檢查答案是否一致,如:請從下列選項中選出你最常用的地圖APP。注意避免使用有兩個答案的問題,比如問用戶愛車的品牌就不合適,因為用戶前后填答不一致,不一定都是不認真填答,也可能是因為用戶本身有兩輛車。 設置一個有明顯錯誤答案的問題,檢查是否選擇了錯誤的答案,如:你最常用的地圖APP是哪個:混淆選項可以用 :京東。不過我們只是想檢驗用戶的認真程度,而非考驗用戶的記憶力,所以測謊題要簡單明確,只要認真看題就不會錯。比如問用戶最常用的地圖APP是哪個,混淆選項用“微信”就不合適,因為用戶不認真想的話,很容易把微信自帶的地圖當成地圖APP。 如果技術支持,也可以通過后臺數(shù)據(jù)和用戶問卷中的數(shù)據(jù)做匹配,常用的是性別、年齡、常居地之類的數(shù)據(jù),也可以問一些明確的行為數(shù)據(jù),比如是否用地圖買過火車票。 需要注意的是:選擇穩(wěn)定的明確的數(shù)據(jù)來做校驗題目,不要使用需要回憶的數(shù)據(jù)來校驗,用戶的記憶是模糊的有誤差的,使用頻率、使用年限,這些都不適合做校驗,因為用戶的記憶很可能與實際行為不完全相符。 問卷調研絕大部分是抽樣調研,如果想通過樣本的情況去推測整體的情況,除了要考慮最小樣本量之外,還需要考慮樣本的代表性。群體有很多屬性,并不是要求樣本的每個屬性都和整體一致,而是關注那些對研究問題最有影響的屬性,在該屬性上樣本和整體盡量保持一致。 假設:年齡對用戶忠誠度的影響非常大,對出行方式沒有影響,那么在研究忠誠度時就需要考慮到年齡因素,而在研究出行方式時,就無需考慮年齡因素了。 一種是事前控制,區(qū)分出不同年齡段的用戶,分桶按比例發(fā)放,該方法成本高很少用。 另一種是事后控制——加權 。比如問卷收集到的用戶,與整體用戶群分布不一致,但是我們想知道整體用戶的忠誠度,此時可以通過加權的方式去調整。 具體方法如下: 先根據(jù)整體和樣本的年齡分布,計算出權重值,然后再使用spss的權重功能,給數(shù)據(jù)加權。加權后再統(tǒng)計忠誠度。 值得注意的是,不要為了省事兒,直接計算出樣本各年齡段的值,然后給各年齡段的值賦個權重,求均值。這樣的結果是不對的,必須要使用spss的加權功能。 如果有多個因素,挑選最重要的一個因素加權。如果非要考慮多個因素,那么需要了解多個因素交叉后的整體分布。比如既要考慮性別、又要考慮年齡,那么需要將性別和年齡交叉,知道整體男性的年齡分布、女性的年齡分布,再計算權重,成本太高了。 我們先假設一份調研問卷,帶著這份問卷來看分析思路。 假設要針對大學生群體使用地圖APP的情況做個調研,設計了以下問卷,通過這個問卷我們能做哪些分析呢? 3.1 描述統(tǒng)計,看整體分布情況 統(tǒng)計各選項的數(shù)量、頻率是最常用到的分析,然后通過圖表展現(xiàn)出來,可以非常直觀的看出整體分布情況。 通過這個問卷,我們可以得到: 在大學生群體中,各手機地圖的市場占有率,如果有整體的地圖市場占有率數(shù)據(jù),還可以比較得到,在學生群體中哪個地圖更有優(yōu)勢。 大學生群體,用戶常用的功能排序,以及各功能的占比。該題是多選題,可以使用spss的“定義多重響應集”的功能。此外在計算占比的時候需要想明白,是以整體人數(shù)作為分母,還是以整體選擇量作為分母,分母不同解釋也不同,需要標明。本題以整體人數(shù)作為分母,占比的意義是:大學生群體中,多少人使用**功能。 3.2 差異分析,找影響因素 除了看整體分布情況,我們還可以通過差異分析,探索更多的信息。 做差異分析,第一步先找到兩個可能有關系的因素;第二步將兩個因素交叉統(tǒng)計結果,根據(jù)結果在這兩個因素間做假設;第三步根據(jù)這兩個因素的數(shù)據(jù)類型,選擇合適的統(tǒng)計方法,驗證假設。 通過這個問卷,我們可以分析: (1)男性和女性對手機地圖的選擇有差異么 先分別計算不同品牌的用戶性別占比,結果發(fā)現(xiàn)不同品牌的男性占比不同,性別和手機品牌都是分類變量,因此使用卡方檢驗。 (2)男性和女性,對手機地圖的忠誠度有差異么? 先統(tǒng)計不同性別用戶的NPS值,NPS值是等距數(shù)據(jù)(NPS這個題目,本質上是李克特量表,對該數(shù)據(jù)是否是等距數(shù)據(jù)尚有爭議,但大部分情況按照等距數(shù)據(jù)處理),我們想要看男性、女性兩組之間的差異,采用T檢驗。 (3)不同品牌的手機地圖,用戶的忠誠度有差異么? 與性別變量不同的是,手機品牌有4個維度,T檢驗只能做兩組之間的差異檢驗,多于兩組的時候采用方差分析。 (4)是否由于男性用戶多導致騰訊地圖的忠誠度低呢? 比如男性的忠誠度更低,而不同品牌之間男性的占比又不同,騰訊的男性用戶較多,就會假設:是否由于男性用戶多導致騰訊地圖的忠誠度低呢。 當有兩個因素的時候,可以采取協(xié)方差分析,在做方差分析的時候,將性別作為協(xié)變量納入,分別看男性組,不同地圖品牌間有差異否,女性組不同地圖品牌間有差異否。 總結一下,做差異檢驗的統(tǒng)計方法常用的有三種:卡方檢驗、T檢驗、方差分析。但是,統(tǒng)計只是輔助判斷的一種工具,也有些情況,直接看交叉后的結果就能發(fā)現(xiàn)差異巨大,無需統(tǒng)計檢驗肉眼都可以判斷,也有些情況下,統(tǒng)計結果顯著,但是差異實在是很微小,也不能做出明確的結論。 所以統(tǒng)計方法并不是重點,找到可能有關系的因素才是重點,學術研究一般會根據(jù)過往的研究提出假設,而實際工作中,絕大部分靠經驗,多熟悉產品多了解用戶,才會有思路。 之前有人提出要做女性地圖,認為女性更看不懂地圖,需要在圖面上有不同的處理。實際調研下來,發(fā)現(xiàn)性別既不影響用戶使用地圖的習慣、也不影響用戶對地圖的感知。相反年齡明顯的影響地圖的使用習慣,接下來就需要進一步挖掘年齡的差異了。 3.3 相關分析,找影響因素,以及影響程度 (1)通過差異分析,我們了解到性別會影響用戶的忠誠度,我們還想接著探索用戶常用的功能個數(shù)是否會影響忠誠度,是不是用的功能越多,忠誠度越高呢? 此時需要用到相關分析,使用功能個數(shù)是等距數(shù)據(jù),使用spss計算Pearson積差相關系數(shù)。相關系數(shù)介于-1~1之間,絕對值越大關系越密切,符號代表相關的方向。通常情況下,絕對值大于0.4就可以認為這兩個數(shù)據(jù)之間有比較強烈的關系了。所以絕對值越大,說明這個因素的影響程度越大。 如果想探索使用頻率和忠誠度之間的關系呢,使用頻率是順序數(shù)據(jù),此時需要計算Speaman相關系數(shù)。相關是在工作中使用比較多的方法,需要注意的是,相關分析只能解釋兩個變量之間有無關系,不能得到因果結論。因果結論是我們基于邏輯賦予的,工作中,相關關系已經足夠我們做判斷了。 (2)如果我們不只是想探索單個因素與忠誠度之間的關系,還想要探索多個影響因素合并在一起對忠誠度的影響,此時可以使用多元回歸的方法。 在本調研中,我們可以探索用戶遇到使用問題的次數(shù)與忠誠度的關系,用戶遇到的問題有4種,分別是定位問題、地點問題、路線問題、性能問題。以NPS值為因變量,將這四個問題一起作為因變量,求一個多元回歸方程。但是多元回歸方程的建立,對數(shù)據(jù)的要求比較高,實際調研中使用的非常少,相關系數(shù)基本夠用了。 不論是相關分析還是回歸分析,都只能反映出變量之間的線性相關關系,如果變量間是非線性的關系,是無法體現(xiàn)在相關系數(shù)上的,因此在做相關分析之前,可以先做一個散點圖,直接觀察一下,兩個變量間是否有其他的關系可能。 如果是自己做調研,不是拿到數(shù)據(jù)了才去想怎么分析,而是在編制問卷的時候就要想清楚:我要了解什么問題,需要什么數(shù)據(jù)支撐,該用什么方法分析? 文中提到的所有統(tǒng)計方法,在統(tǒng)計書中都可以找到細致的操作步驟。本文只是列了最粗淺的統(tǒng)計方法,但是往往粗淺的才夠直接,對實際的決策最有支持力。 End. 作者:喬溪 來源:人人都是產品經理 |
|