1. 程式人生 > >資料分析方法論(一)

資料分析方法論(一)

資料分析方法論主要有兩大塊:
1)統計分析方法論:

描述統計、假設檢驗、相關分析、方差分析、迴歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析、決策樹等;

2)營銷管理分析方法論:

SWOT、4P、PEST、SMART、5W2H、User behavior等。

一、統計分析方法論:
1.描述統計(Descriptive statistics):
描述統計是通過圖表或數學方法,對資料資料進行整理、分析,並對資料的分佈狀態、數字特徵和隨機變數之間關係進行估計和描述的方法。
目的是描述資料特徵,找出資料的基本規律。
描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。 ?
1.1、資料的頻數分析:利用頻數分析和交叉頻數分析來檢驗異常值。此外,頻數分析也可以發現一些統計規律。
1.2、資料的集中趨勢分析:資料的集中趨勢分析是用來反映資料的一般水平,常用的指標有平均值、中位數和眾數等。
1)平均值:是衡量資料的中心位置的重要指標,反映了一些資料必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。
2)中位數:是另外一種反映資料的中心位置的指標,其確定方法是將所有資料以由小到大的順序排列,位於中央的資料值就是中位數。
3)眾數:是指在資料中發生頻率最高的資料值。
如果各個資料之間的差異程度較小,用平均值就有較好的代表性;而如果資料之間的差異程度較大,特別是有個別的極端值的情況,用中位數或眾數有較好的代表性。
1.3、資料的離散程度分析:資料的離散程度分析主要是用來反映資料之間的差異程度,常用的指標有方差和標準差。方差是標準差的平方,根據不同的資料型別有不同的計算方法。
1.4、資料的分佈:常用偏度-峰度法需要用偏度和峰度兩個指標來檢查樣本是否符合正態分佈。偏度衡量的是樣本分佈的偏斜方向和程度;而峰度衡量的是樣本分佈曲線的尖峰程度。一般情況下,如果樣本的偏度接近於0,而峰度接近於3,就可以判斷總體的分佈接近於正態分佈。
1.5、繪製統計圖:用圖形的形式來表達資料。

2.假設檢驗:是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。具體作法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分佈為已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法,秩和檢驗等。

3.相關分析:相關分析是研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關程度,是研究隨機變數之間的相關關係的一種統計方法。常見的有線性相關分析、偏相關分析和距離分析

4.方差分析(Analysis of Variance,簡稱ANOVA):又稱“變異數分析”或“F檢驗”,用於兩個及兩個以上樣本均數差別的顯著性檢驗。 由於各種因素的影響,研究所得的資料呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。

5.迴歸分析:線性迴歸,曲線迴歸,二元logistic迴歸,多元logistic迴歸。
5.1、線性迴歸:線性迴歸是利用數理統計中迴歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。迴歸分析中,只包括一個自變數和一個因變數,且二者的關係可用一條直線近似表示,這種迴歸分析稱為一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性迴歸分析。
5.2、曲線迴歸:兩個變數間呈現曲線關係的迴歸。
5.3、二元logistic迴歸、多元logistic迴歸:Logistic迴歸主要用於因變數為分類變數(如疾病的緩解、不緩解,評比中的好、中、差等)的迴歸分析,自變數可以為分類變數,也可以為連續變數。他可以從多個自變數中選出對因變數有影響的自變數,並可以給出預測公式用於預測。
因變數為二分類的稱為二項logistic迴歸,因變數為多分類的稱為多元logistic迴歸。

6.聚類分析:主要解決的是在“物以類聚、人以群分”,基於使用者間彼此距離的長短來對使用者進行聚類劃分的方法依然是當前最流行的方法。首先確定選擇哪些指標對使用者進行聚類;然後在選擇的指標上計算使用者彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、使用者在每個指標下都有相應的取值,可以看作多維空間中的一個點,使用者彼此間的距離就可理解為兩者之間的直線距離。);最後聚類方法把彼此距離比較短的使用者聚為一類,類與類之間的距離相對比較長。
6.1、k-means:從N個文件隨機選取K個文件作為質心,對剩餘的每個文件測量其到每個質心的距離,並把它歸到最近的質心的類,重新計算已經得到的各個類的質心,迭代2~3步直至新的質心與原質心相等或小於指定閾值,演算法結束。
6.2、分層:層次聚類(Hierarchical Clustering)是聚類演算法的一種,通過計算不同類別資料點間的相似度來建立一棵有層次的巢狀聚類樹。在聚類樹中,不同類別的原始資料點是樹的最低層,樹的頂層是一個聚類的根節點。建立聚類樹有自下而上合併和自上而下分裂兩種方法。
6.3、FCM:是一種基於劃分的聚類演算法,它的思想就是使得被劃分到同一簇的物件之間相似度最大,而不同簇之間的相似度最小。模糊C均值演算法是普通C均值演算法的改進,普通C均值演算法對於資料的劃分是硬性的,而FCM則是一種柔性的模糊劃分。

相關推薦

資料分析方法論

資料分析方法論主要有兩大塊: 1)統計分析方法論:描述統計、假設檢驗、相關分析、方差分析、迴歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析、決策樹等; 2)營銷管理分析方法論: SWOT、4P、PEST、SMART、5W2H、User behavior等。 一、

如何做好資料分析報告

大家都知道,我們分析資料的時候,還需要對資料分析做出報告的。做資料分析報告也是一個技術活,那麼大家知道不知道資料分析報告需要做什麼呢?我們在這篇文章中給大家介紹了資料分析報告的概況、資料分析報告的特點和結構、資料分析報告的分析思路與框架、資料分析報告的分析框架構建應用、資料分析報告的定

怎麼撰寫份優秀的資料分析報告

我們在進行資料分析工作的時候還是需要做好資料分析報告的。一般來說,寫一份優秀的資料分析報告是一件重要的事情,在進行撰寫資料分析報告的時候需要注意很多的注意事項,那麼怎麼做好資料分析報告呢?下面就由小編為大家解答一下這個問題。 首先我們需要知道我們為什麼要撰寫資料分析報告呢?我們進行撰寫資料分析報告的時候

Python資料分析入門——初探資料視覺化

前言 靜下心算算,當程式設計師已經有好幾年了,不過自大學時代開始,學習對我來說就是個被動接受的過程,學校的課程、當時熱門的移動端開發、資料庫的學習、web學習、PHP後端學習……需要做什麼我便去學什麼,到了今天,突然意識到我是不是該給自己一個明確的發展方向了,畢竟歲月不饒人

Python 3.x--資料分析: numpy

所謂自由,不是隨心而欲,而是自我主宰 numpy介紹: 前言: 因為Python中array模組只支援一維陣列,不支援多維陣列,也沒有各種運算函式,不適合數值運算,所以numpy的出現彌補了不足 NUMPY庫(簡稱np)是Python

資料之Spark--- Spark簡介,模組,安裝,使用,一句話實現WorldCount,API,scala程式設計,提交作業到spark叢集,指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

python進階資料分析numpy庫

numpy——基礎,以矩陣為基礎的數學計算模組,純數學儲存和處理大型矩陣。  這個是很基礎的擴充套件,其餘的擴充套件都是以此為基礎。 scipy——數值計算庫,在numPy庫的基礎上增加了眾多的數學、科學以及工程計算中常用的庫函式。  方便、易於使用、專為科學和工程設計的Py

資料之storm --- storm簡介,核心元件,工作流程,安裝和部署,電話通訊案例分析,叢集執行,單詞統計案例分析,調整併發度

一、storm簡介 --------------------------------------------------------- 1.開源,分散式,實時計算 2.實時可靠的處理無限資料流,可以使用任何語言開發 3.適用於實時分析,線上機器學習

什麼資料可以使用Excel分析

大家都知道,Excel作為使用最普遍的的資料分析工具,靈活簡便,易於上手。對於很多人來說,他們認為資料分析工作的工具都是比較高階的,Excel只能夠做到簡單的處理資料而已,其實這個想法是對的,同樣也是錯的。一般來說,Excel可以處理一些比較小的資料的,當然,Excel涵蓋的功能很多。我們可以通過這篇文章

資料分析中的5w2h分析

在資料分析工作中我們需要了解很多的資料分析方法,其中比較經典的就是5w2h法,很多人對於5w2h法不是很清楚。其實就目前而言,很多的資料分析師都是需要了解這個資料分析方法的,這個資料分析的方法能夠不斷給我們分析資料的方向,一名優秀的資料分析師一定會懂得這個資料分析知識。下面就由小編為大

怎麼撰寫份優秀的資料分析報告

在前面的文章中我們給大家介紹了資料分析報告中的日常資料報告的特點,分別是進度性、規範性、時效性。知道了資料分析報告的型別以後我們就開始瞭解一下資料分析報告的結構了,那麼資料分析報告的結構是什麼呢?下面就由小編為大家解答一下這個問題。 大家都知道,不管是什麼文體都是有結構的,資料分析報告有特定的結構,但是

四個步驟教你寫好款產品的運營資料分析報告

收藏~ 遊戲運營期間,我們可以在後臺看到一堆遊戲相關資料,對於這些資料我們要怎麼怎麼進行處理分析呢?下面將圍繞一份報告例項做詳細的分析。內容主要包括分析目標、分析綜述、一週運營資料分析、運營資料總體分析四塊內容 一、 確定分析目標 分析目標主要包括以下三個方面: ●

bug統計分析基於SQL的Bug統計方法

擴展 span tom div info 依據 desc pos title 本文由 @lonelyrains 出品。轉載請註明出處。 文章鏈接: http://blog.csdn.net/lonelyrains/article/details/44225533

centos7搭建ELK Cluster日誌分析平臺

場景 git centos7 beat images 下載地址 install posit src 應用場景:ELK實際上是三個工具的集合,ElasticSearch + Logstash + Kibana,這三個工具組合形成了一套實用、易用的監控架構,      很多公司

源碼分析系列x264_main_dataflow

images 9.png 所有 malloc 控制 相關 .com 圖1 memory http://www.cnblogs.com/xkfz007/articles/2616153.html 幀內幀間編碼部分關鍵函數 1.1 x264_encoder_open (x

數據分析學習

nbsp ont 概率 學習 ron size 做到 由於 診斷 貝葉斯統計能夠幫助你利用基礎概率和波動數據做到明察秋毫。 問題:醫生給你一份蜥蜴流感診斷書。 好消息:蜥蜴流感並不致命。 壞消息:蜥蜴流感很麻煩。 診斷報告: 陽性 醫生確信你已經染病。不過由於你對數據分析得

如何籌建公司的大數據分析系統

大數據 日誌分析 elk 淺談下,如標題這個問題:隨著大數據被不停的挖掘,每天有態度的人利用用戶數據信息,產生巨大的商業價值,以及風險告警,在籌建大數據分析系統時,大家都很熱衷新的東西,在做公司架構體系時,動不動就直接上新的技術,導致項目夭折,最後走人換公司的局面,後來不斷的有人去填坑。隨著Spl

Apache Spark大數據分析入門

做的 項目 persist fig shell命令 tutorial math 提高 welcom 摘要:Apache Spark的出現讓普通人也具備了大數據及實時數據分析能力。鑒於此,本文通過動手實戰操作演示帶領大家快速地入門學習Spark。本文是Apache Spark

來學學數據分析

語言 imp advance ctu use bak 高級 hose 數據分析 36-402, Undergraduate Advanced Data Analysis 網上看到了這個學校的教程,好像是本科生的高級數據分析,用R語言來做的。 Cosma ShaliziI

Android ANR分析實踐:北京×××搭建ANR是什麽、產生的原因及如何避免ANR

例如 三種 handler 線程處理 不足 線程阻塞 種類 工具 input 一、 什麽是北京×××搭建 dsluntan.com VX:17061863513ANR ANR,(Application Not Responding) 即應用程序無響應,在android應