1. 程式人生 > >快速掌握SPSS數據分析

快速掌握SPSS數據分析

價值 可能 復雜 文字 src 結合 困難 教科書 深入

技術分享圖片

SPSS難嗎?無非就是數據類型的區別後,就能理解應該用什麽樣的分析方法,對應著分析方法無非是找一些參考資料進行即可。甚至在線網頁SPSS軟件直接可以將數據分析結果指標人工智能地分析出來,這有多難呢?本文章將周老師(統計學專家)8年的數據分析經驗濃縮,便於讓不會數據分析的同學,在學習數據分析的過程中可以少走彎路,樹立數據分析價值觀,以及以數據進行決策的思維意識,並且可以快速的掌握數據分析。本文章分為四個板塊進行說明,一是數據分析思維的培養。二是數據間的幾類關系情況。三是數據分析方法的選擇。四是數據研究的撰寫等。

技術分享圖片

相對來講,我們國家對於數據價值的重視是最近幾年才開始,尤其是大數據時代的興起,以及人工智能時代的國家戰略情況。之前企業進行決策時基本均是憑借主觀經驗,老板的經驗決定企業的成長,這也許叫做‘定性研究’較為適合,這種思路並沒有錯誤。相對來講,主觀個人偏好性是這種經驗意識的弊端,而數據思維是用真實的數據作為依據,相對來講具有更強的科學客觀性。但兩種思維各有優缺點,數據還可以造假,以及人們還可能會錯誤的利用數據等。

但無論如何,西方的數據意識,以及數據價值客觀存在。我們有必要對其進行重視。作為數據研究人員,首先需要確保的是對數據的敬仰,錯誤的數據絕對無法容忍,否則永遠不會得出科學的結論。因而數據分析思維的素養第一層次即尊重數據。原始數據代表的意義,數據自身帶來的屬性等均應該逐一確認。

確認數據的真實準確性後,即完成數據清理後,可對數據類型進行區分,一切數據均可分為兩種類型,包括定性和定量數據。如同’定性研究‘和’定量研究‘一樣,定性數據是那些表示分類,通常使用百分比匯總,無法計算平均值的數據,比如性別,專業。性別僅為男和女,使用數字1和數字2表示,可以分別計算男和女的比例,但是不能算個平均分為1.2,得出性別平均為1.2這樣的分析。

另外一種數據叫定量數據,定量數據是那些可以進行量化,通常使用平均值表示,比如年齡,身高,體重,滿意度等。可以計算平均年齡,但通常不分分析每個年齡數字的選擇百分比。

還有一類數據,其即可以計算百分比,也可以計算平均值,比如問卷研究中的滿意度,數字1代表非常不滿意,數字2代表比較不滿意,數字3代表中立,數字4代表比較滿意,數字5代表非常滿意。這類數據可以計算各項的百分比,也可以計算平均值。具體此類數據如何應用,可結合實際情況進行即可,但通常的偏好是,如果可以看作為定量數據,則按照定量數據情況進行即可。

在基本的數據類型確認之後,接下來再討論下數據研究的一些關系情況。如果是初學數據分析,常規的路徑可能是開始理解數據算法的原理,然後就懂一個就去,接著再學習另外一個算法。這種方法是常規教科書式的學習路徑,非常慢而且容易出現一個問題即懂了理論無法進行實踐。

技術分享圖片

數據分析是挖掘數據間的關系情況,發現潛在的數據規律,找出數據後面潛在的商業價值等。本人將數據間的關系歸納匯總為以下三類。第一是差異關系;第二是相關關系。第三是其它關系。

第一類差異關系通常是研究不同類別的差異性,提到了不同類別,那就涉及到定性數據,差異關系可以包括定性和定量數據的差異性,定性和定性數據的差異性。自然地也就對應到幾類研究方法。

第二類為相關關系。比如越如何越如何之類的關系。包括相關關系,還有影響關系等。X對於Y的影響關系情況如何等,此時影響關系又拆分出幾種分析算法。

當然還有其它關系,比如數據的濃縮,聚類。此時又分涉及到對應的研究方法。

在進行數據研究時,首先需要想到的是“我想做什麽?“,來回就只有三種關系,那麽這種關系有著明顯的區分性,對應確認關系情況,加上數據類型的判斷,對應就會找出合理的數據研究方法。接下來一一概述。

技術分享圖片

上面兩部分分別講述了數據類型和數據關系情況。接著需要落地,即研究方法的使用。按照上一部分的思路,即三類關系情況進行闡述。

第一類為差異關系

· 定性和定性數據差異關系。比如性別和專業的差異關系,不同性別人群專業偏好上有沒有差異呢?此時應該用卡方分析。

· 定性和定量數據差異關系。比如性別和身高的差異關系,不同性別人群身高有沒有明顯的差異性呢?此時應該用方差分析或者T檢驗。至於方差分析和T檢驗的區別上,比如性別為兩類,則可以使用方差分析或者T檢驗;比如研究城市和身高的關系,一線,二線或者三線城市人群他們的身高有沒有明顯差異性。比較了三組人群,這時候只能用方差分析,不能用T檢驗。因為方差分析可以對比多組,而T檢驗只能對比兩組。

· 定量數據和定量數據的差異。有時候做實驗,比如新型教學方式的使用,在使用前和使用後,學生成績有沒有明顯的變化呢?此時則應該使用配對T檢驗。配對T檢驗通常都是用於實驗研究中,使用時相對需要註意下。

· 定量數據和數字的差異。比如中國人的平均身高是否明顯的高於1.70。定量數據和一個數字的差異性,此時應該用單樣本T檢驗。

· 當然還有其它一些研究方法,但先從基礎的開始,懂了這些方法後,再逐一深入學習。明白了這幾類差異關系,事實上已經理解一部分數據分析。比如差異關系研究時有時候會有非參數檢驗,這類研究都是和正態性,方差齊這兩個名詞緊密相關,後續的文章再慢慢剖析。

第二類為相關關系

· 定量和定量數據的相關關系。比如身高和體重之間有沒有關系?此時則應該使用相關分析。至於相關分析,又可以再細分為pearson和spearman相關,這兩類關系是結合數據正態性情況而定,正常情況下都默認使用pearson相關分析。

· 影響關系情況(X對Y的影響,Y為定量數據)。比如研究學歷,年齡,收入,滿意度等對於消費金額的影響。此時一般是使用回歸分析,或者更多稱作是線性回歸分析。也有時候會使用到非線性回歸分析,但這種情況相對較少。線性回歸分析也可以再細分為2類,簡單線性(一元線性)和多元線性,研究X對Y的影響,如果X僅為1個則稱作簡單線性(一元線性);如果X為多個,此時稱作多元線性回歸分析。如果Y的個數超過1個,可以多進行幾次回歸就好,更復雜的可以使用結構方程模型進行研究。線性回歸時X可以為定性數據也可以為定量數據,如果是定性數據則需要進行虛擬變量(啞變量)設置。

· 影響關系情況(X對Y的影響,Y為定類數據)。比如研究學歷,年齡,收入,滿意度等對於是否購買iPhone X的影響。此時應該使用logistic回歸分析。線性回歸和logistic回歸的區別在於,線性回歸時,Y為定量數據;logistic回歸分析時,Y是定類數據。當然logistic回歸又區分為三類,分別是二元logistic回歸,有序logistic回歸,無序logistic回歸;區別在於如果Y僅分為兩類,比如願意不願意,購買不購買,喜歡不喜歡,此時Y只有2個類別則叫做二元logistic回歸,此方法的使用頻率非常高。比如Y分為三組分別是不喜歡,喜歡和喜歡,此時使用有序logistic回歸(其實使用線性回歸也是可以的,只是我們這裏把Y當成是定類數據所以使用有序logistic回歸而已);無序logistic回歸時,Y一定是絕對的定性數據,比如出行方式的偏好(自行車,公共汽車,地鐵,自駕),此時用無序logistic回歸即可。

第三類為其它關系

實際情況中還會有比如數據的濃縮,樣本的聚類等研究。

· 數據濃縮:比如說了20句話,是否可以把20句話概括歸納成4個詞語表示呢?此時就應該用到數據濃縮,即使用因子分析(也或者主成分分析);以及記住,數據濃縮時,數據一定是定量數據。

· 樣本聚類:比如遊戲裏面分了幾種角色,遊戲數據分析人員希望對收集到了1萬個樣本分成幾類,便於進行遊戲裏面的角色定位。此時則需要使用聚類分析。

上述的方法選擇,分別與數據關系,或者數據類型間的關聯性思路。事實上與網頁在線版本的SPSSAU(www.spssau.com),完全如出一轍。spssau即是使用這樣的思路進行產品設計。確定好數據類型,理解了數據關系情況,即可選擇出正確的數據研究方法。

技術分享圖片

如果已經理解了數據類型,數據關系,並且選擇了正確的數據研究方法。最終無非是把數據研究方法得出的結論進行匯總整理,然後寫成有邏輯性的報告,並且在結論基礎上對應提出有意義有價值的建議措施等。

關於數據報告的撰寫,單獨從數據分析角度上看,建議以實際需求出發,比如研究差異關系,那麽首先得需要知道有沒有差異,接著有了差異,具體差異情況如何。有了差異或者沒有差異時,對應的建議措施應該如何。按照這樣的思路,相信數據研究報告的撰寫並非難事。

如果是對具體數據研究方法的結論撰寫有困難,可以直接使用spssau進行分析,直接參考裏面的智能文字分析即可。以及需要特別註意在於,數據研究結論對應有什麽意義,價值在哪裏,對實際商業的價值或者指導在哪裏?這才是重點。

快速掌握SPSS數據分析

快速掌握SPSS數據分析