1. 程式人生 > >數據分析筆試(3)

數據分析筆試(3)

平面 在線 運行時 對象 因此 十個 思想 選擇 除法

Q:如何判斷一個模型的好壞?

A:1。是否具備清晰的概念、足夠的準確性
2。計算效率與表現形式
3。可移植性(推廣應用價值)
4。易用性

Q:訂單量下降什麽因素影響?
A:基於對業務的理解。內部原因:經營問題,設計問題;外部原因:天氣原因,整個大環境影響,其他競爭對手采取行動等

Q:根據已有數據如何判斷用戶的一些未來行為?
A:基於對業務數據的理解,腦洞要大。

層次聚類算法
根據層次分解的順序是自底向上的還是自上向下的,層次聚類算法分為凝聚的層次聚類算法和分裂的層次聚類算法。

凝聚型層次聚類的策略是先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類,它們只是在簇間相似度的定義上有所不同。

采用最小距離的凝聚層次聚類算法流程:
 (1) 將每個對象看作一類,計算兩兩之間的最小距離;
 (2) 將距離最小的兩個類合並成一個新類;
 (3) 重新計算新類與所有類之間的距離;
 (4) 重復(2)、(3),直到所有類最後合並成一類。

SOM聚類算法

該算法假設在輸入對象中存在一些拓撲結構或順序,可以實現從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特征保持性質,與實際的大腦處理有很強的理論聯系。
SOM網絡包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。 學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特征。

FCM聚類算法

FCM算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的算法。該聚類算法是傳統硬聚類算法的一種改進。

四種聚類算法中,在運行時間及準確度方面綜合考慮,k-means和FCM相對優於其他。但是,各個算法還是存在固定缺點:k-means聚類算法的初 始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定,本實驗中雖是經過多次實驗取的平均值,但是具體初始點的選擇方法還需進一步研究;層次聚類雖然 不需要確定分類數,但是一旦一個分裂或者合並被執行,就不能修正,聚類質量受限制;FCM對初始聚類中心敏感,需要人為確定聚類數,容易陷入局部最優 解;SOM與實際大腦處理有很強的理論聯系。但是處理時間較長,需要進一步研究使其適應大型數據庫。

http://www.cnblogs.com/William_Fire/archive/2013/02/09/2909499.html)

Q:如何理解線性回歸?

A:確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法

線性回歸有很多實際用途。分為以下兩大類:

如果目標是預測或者映射,線性回歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。這是比方差分析進一步的作用,就是根據現在,預測未來。雖然,線性回歸和方差都是需要因變量為連續變量,自變量為分類變量,自變量可以有一個或者多個,但是,線性回歸增加另一個功能,也就是憑什麽預測未來,就是憑回歸方程。這個回歸方程的因變量是一個未知數,也是一個估計數,雖然估計,但是,只要有規律,就能預測未來。

給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關,線性回歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,並識別出哪些Xj的子集包含了關於y的冗余信息。

線性回歸模型經常用最小二乘逼近來擬合

應用多重線性回歸進行統計分析時要求滿足哪些條件呢?

總結起來可用四個詞來描述:線性(自變量和因變量之間存在線性關系)、獨立(各觀測間相互獨立)、正態(殘差服從正態分布)、齊性(方差大小不隨所有變量取值水平的改變而改變,即方差齊性)。

Q:線性回歸的因素如果有相關關系,會對模型有什麽影響?

A:多重共線性指自變量問存在線性相關關系,即一個自變量可以用其他一個或幾個自變量的線性表達式進行表示。若存在多重共線性,計算自變量的偏回歸系數β時,矩陣不可逆,導致β存在無窮多個解或無解。

解決辦法:(1)逐步回歸:使用逐步回歸可以在一定程度上篩選存在多重共線性的自變量組合中對反應變量變異解釋較大的變量,而將解釋較小的變量排除在模型之外。
但這種方法缺點是當共線性較為嚴重時,變量自動篩選的方法並不能完全解決問題。

(2) 嶺回歸:嶺回歸為有偏估計,但能有效地控制回歸系數的標準誤大小。

(3) 主成分回歸:可以使用主成分分析的方法對存在多重共線性的自變量組合提取主成分,然後以特征值較大的(如大於1)幾個主成分與其他自變量一起進行多重線性回歸。得出的主成分回歸系數再根據主成分表達式反推出原始自變量的參數估計。
該方法在提取主成分時丟失了一部分信息,幾個自變量間的多重共線性越強,提取主成分時丟失的信息越少。

(4) 路徑分析

Q:主成分分析的兩個因子是什麽關系?

A:相互獨立

Q:準確率和召回率哪個更重要些?

A:信息檢索、分類、識別、翻譯等領域兩個最基本指標是召回率(Recall Rate)和準確率(Precision Rate),召回率也叫查全率,準確率也叫查準率,概念公式:

召回率(Recall) = 系統檢索到的相關文件 / 系統所有相關的文件總數

準確率(Precision) = 系統檢索到的相關文件 / 系統所有檢索到的文件總數

註意:準確率和召回率是互相影響的,理想情況下肯定是做到兩者都高,但是一般情況下準確率高、召回率就低,召回率低、準確率高,當然如果兩者都低,那是什麽地方出問題了

如果是做搜索,那就是保證召回的情況下提升準確率;如果做疾病監測、反垃圾,則是保準確率的條件下,提升召回。

Q:都有什麽降維方法?

A:缺失值比率 (Missing Values Ratio)該方法的是基於包含太多缺失值的數據列包含有用信息的可能性較少。因此,可以將數據列缺失值大於某個閾值的列去掉。閾值越高,降維方法更為積極,即降維越少。

低方差濾波 (Low Variance Filter)與上個方法相似,該方法假設數據列變化非常小的列包含的信息量少。因此,所有的數據列方差小的列被移除。需要註意的一點是:方差與數據範圍相關的,因此在采用該方法前需要對數據做歸一化處理。

高相關濾波 (High Correlation Filter)高相關濾波認為當兩列數據變化趨勢相似時,它們包含的信息也顯示。這樣,使用相似列中的一列就可以滿足機器學習模型。對於數值列之間的相似性通過計算相關系數來表示,對於名詞類列的相關系數可以通過計算皮爾遜卡方值來表示。相關系數大於某個閾值的兩列只保留一列。同樣要註意的是:相關系數對範圍敏感,所以在計算之前也需要對數據進行歸一化處理。

隨機森林/組合樹(Random Forests)組合決策樹通常又被稱為隨機森林,它在進行特征選擇與構建有效的分類器時非常有用。一種常用的降維方法是對目標屬性產生許多巨大的樹,然後根據對每個屬性的統計結果找到信息量最大的特征子集。Eg,如果我們能能夠對一個非常巨大的數據集生成非常層次非常淺的樹,每棵樹只訓練一小部分屬性。如果一個屬性經常成為最佳分裂屬性,那麽它很有可能是需要保留的信息特征。對隨機森林數據屬性的統計評分會向我們揭示與其它屬性相比,哪個屬性才是預測能力最好的屬性。

主成分分析(PCA)通過正交變換將原始的n維數據集變換到一個新的唄稱作主成分的數據集中。變換後的結果中,第一個主成分具有最大的方差值,每個後續的成分在與前述主成分正交條件限制下與具有最大方差。降維時僅保存前m個主成分即可保持最大的數據信息量。需要註意的是主成分變換對正交向量的尺度敏感。數據在變換前需要進行歸一化處理。同樣也需要註意的是,新的主成分並不是由實際系統產生的,因此在進行PCA變換後會喪失數據的解釋性。

反向特征消除,所有分類算法先用n個特征進行訓練。每次降維操作,采用n-1個特征對分類器訓練n次,得到新的n個分類器。將新分類器中錯分率變化最小的分類器所用的n-1維特征作為降維後的特征集。不斷的對該過程進行叠代,即得到降維後的結果。第k次叠代過程中得到的是n-k維特征分類器。通過選擇最大的錯誤容忍率,我們可以得到在選擇分類器上打到指定分類性能最小需要多少個特征。(http://tech.idcquan.com/dc/78484.shtml)

我對降維的理解:提取數據中有用的信息,用最少的數據得到最有用的結果。

Q:用全部的數據做線性回歸,這樣是什麽錯誤?

A:過度擬合

Q:如何判斷一組數據是否服從正態分布?

A:1當樣本數N<2000,shapiro-wilk的W統計量檢驗正態性

當樣本數N>2000,Kolmogorov-Smirnov的D統計量檢驗正態性。把樣本分布的形狀和正態分布想比較,得出一個數值p,如果p小於0.05(給定顯著性水平)認為數據不是來自正態分布。反之結論相反。

2 觀察正態概率圖,如果來自正態分布,圖形應該呈現一條直線。

3 繪制數據條形圖,如果來自正態分布,條形圖呈現鐘型

4 偏度系數和峰度系數,如果正態分布,兩者都應該是0(適合大樣本)

Q:如何處理數據缺失值?

A:1.刪除含有缺失值的個案

主要有簡單刪除法和權重法。簡單刪除法是對缺失值進行處理的最原始方法。它將存在缺失值的個案刪除。如果數據缺失問題可以通過簡單的刪除小部分樣本來達到目標,那麽這個方法是最有效的。當缺失值的類型為非完全隨機缺失的時候,可以通過對完整的數據加權來減小偏差。把數據不完全的個案標記後,將完整的數據個案賦予不同的權重,個案的權重可以通過logistic或probit回歸求得。如果解釋變量中存在對權重估計起決定行因素的變量,那麽這種方法可以有效減小偏差。如果解釋變量和權重並不相關,它並不能減小偏差。對於存在多個屬性缺失的情況,就需要對不同屬性的缺失組合賦不同的權重,這將大大增加計算的難度,降低預測的準確性,這時權重法並不理想。

2.可能值插補缺失值

它的思想來源是以最可能的值來插補缺失值比全部刪除不完全樣本所產生的信息丟失要少。在數據挖掘中,面對的通常是大型的數據庫,它的屬性有幾十個甚至幾百個,因為一個屬性值的缺失而放棄大量的其他屬性值,這種刪除是對信息的極大浪費,所以產生了以可能值對缺失值進行插補的思想與方法。常用的有如下幾種方法。

(1)均值插補。數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

(2)利用同類均值插補。同均值插補的方法都屬於單值插補,不同的是,它用層次聚類模型預測缺失變量的類型,再以該類型的均值插補。假設X=(X1,X2…Xp)為信息完全的變量,Y為存在缺失值的變量,那麽首先對X或其子集行聚類,然後按缺失個案所屬類來插補不同類的均值。如果在以後統計分析中還需以引入的解釋變量和Y做分析,那麽這種插補方法將在模型中引入自相關,給分析造成障礙。

(3)極大似然估計(Max Likelihood ,ML)。在缺失類型為隨機缺失的條件下,假設模型對於完整的樣本是正確的,那麽通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。這種方法也被稱為忽略缺失值的極大似然估計,對於極大似然的參數估計實際中常采用的計算方法是期望值最大化(Expectation Maximization,EM)。該方法比刪除個案和單值插補更有吸引力,它一個重要前提:適用於大樣本。有效樣本的數量足夠以保證ML估計值是漸近無偏的並服從正態分布。但是這種方法可能會陷入局部極值,收斂速度也不是很快,並且計算很復雜。

(4)多重插補(Multiple Imputation,MI)。多值插補的思想來源於貝葉斯估計,認為待插補的值是隨機的,它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值,然後再加上不同的噪聲,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。

多重插補方法分為三個步驟:①為每個空值產生一套可能的插補值,這些值反映了無響應模型的不確定性;每個值都可以被用來插補數據集中的缺失值,產生若幹個完整數據集合。②每個插補數據集合都用針對完整數據集的統計方法進行統計分析。③對來自各個插補數據集的結果,根據評分函數進行選擇,產生最終的插補值。

假設一組數據,包括三個變量Y1,Y2,Y3,它們的聯合分布為正態分布,將這組數據處理成三組,A組保持原始數據,B組僅缺失Y3,C組缺失Y1和Y2。在多值插補時,對A組將不進行任何處理,對B組產生Y3的一組估計值(作Y3關於Y1,Y2的回歸),對C組作產生Y1和Y2的一組成對估計值(作Y1,Y2關於Y3的回歸)。

當用多值插補時,對A組將不進行處理,對B、C組將完整的樣本隨機抽取形成為m組(m為可選擇的m組插補值),每組個案數只要能夠有效估計參數就可以了。對存在缺失值的屬性的分布作出估計,然後基於這m組觀測值,對於這m組樣本分別產生關於參數的m組估計值,給出相應的預測即,這時采用的估計方法為極大似然法,在計算機中具體的實現算法為期望最大化法(EM)。對B組估計出一組Y3的值,對C將利用 Y1,Y2,Y3它們的聯合分布為正態分布這一前提,估計出一組(Y1,Y2)。

上例中假定了Y1,Y2,Y3的聯合分布為正態分布。這個假設是人為的,但是已經通過驗證(Graham和Schafer於1999),非正態聯合分布的變量,在這個假定下仍然可以估計到很接近真實值的結果。

多重插補和貝葉斯估計的思想是一致的,但是多重插補彌補了貝葉斯估計的幾個不足。

(1)貝葉斯估計以極大似然的方法估計,極大似然的方法要求模型的形式必須準確,如果參數形式不正確,將得到錯誤得結論,即先驗分布將影響後驗分布的準確性。而多重插補所依據的是大樣本漸近完整的數據的理論,在數據挖掘中的數據量都很大,先驗分布將極小的影響結果,所以先驗分布的對結果的影響不大。

(2)貝葉斯估計僅要求知道未知參數的先驗分布,沒有利用與參數的關系。而多重插補對參數的聯合分布作出了估計,利用了參數間的相互關系。

以上四種插補方法,對於缺失值的類型為隨機缺失的插補有很好的效果。兩種均值插補方法是最容易實現的,也是以前人們經常使用的,但是它對樣本存在極大的幹擾,尤其是當插補後的值作為解釋變量進行回歸時,參數的估計值與真實值的偏差很大。相比較而言,極大似然估計和多重插補是兩種比較好的插補方法,與多重插補對比,極大似然缺少不確定成分,所以越來越多的人傾向於使用多值插補方法。(http://bbs.pinggu.org/thread-3027700-1-1.html)

數據分析筆試(3)