1. 程式人生 > >2017.04.18:網易2017校招資料分析開放題

2017.04.18:網易2017校招資料分析開放題

1.異常值檢測

原因:

(1)資料來源於不同的類:某個資料物件可能不同於其他資料物件(即異常),因為它術語一個不同的型別或類。Hawkins的離群點定義:離群點是一個觀測值,它與其他觀測值的差別如此之大,以至於懷疑它是由不同的機制產生的。

(2)自然變異:許多資料集可以用一個統計分佈建模,如正態(高斯)分佈建模,其中資料物件的概率隨物件到分佈中心距離的增加而急劇減少。換言之,大部分資料物件靠近中心(平均物件),資料物件顯著地不同於這個平均物件的似然性很小。

(3)資料測量和收集誤差:資料收集和測量過程中的誤差是另一個異常源。剔除這類異常是資料預處理(尤其是資料清理)的關注點。

異常檢測方法

(1)基於模型的技術:許多異常檢測技術首先建立一個數據模型。異常是那些同模型不能完美擬合的物件。

(2)基於鄰近度的技術:通常可以在物件之間定義鄰近性度量,並且許多移倉檢測方法都基於鄰近度。異常物件是那些遠離大部分其他物件的物件,這一鄰域的許多技術都基於距離,稱作基於距離的離群點檢測技術。

(3)基於密度的技術:物件的密度估計可以相對直接地計算,特別是當物件之間存在鄰近度度量時。地密度區域中的物件相對遠離近鄰,可能被看做異常。

2.推薦系統的評價指標

1.平均誤差MAE(MeanAbsolute Error ):平均絕對誤差 MAE是評價推薦 演算法質量 的標準之一 ,它通過計算預測評分與真實評價數 據上的差別來衡量推薦結果的準確性。MAE的值越小 ,推薦準確性越高。假設預測的使用者評分集合表示為{P1,P2,⋯PN},對應 的實際使用者評分集合為 {q1,q2,⋯ ,qN} ,則具體的 MAE計算公式為


2.準確率與召回率(Precision& Recall)

準確率和召回率是廣泛用於資訊檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文件數與檢索出的文件總數的比率,衡量的是檢索系統的查準率;召回率是指檢索出的相關文件數和文件庫中所有的相關文件數的比率,衡量的是檢索系統的查全率。一般來說,Precision就是檢索出來的條目(比如:文件、網頁等)有多少是準確的,Recall就是所有準確的條目有多少被檢索出來了。

正確率、召回率和 F1 值是在魚龍混雜的環境中,選出目標的重要評價指標。不妨看看這些指標的定義先:

    1. 正確率 = 提取出的正確資訊條數 /  提取出的資訊條數    

2. 召回率 = 提取出的正確資訊條數 /  樣本中的資訊條數   

3. F1值  = 正確率 * 召回率 * 2 / (正確率 + 召回率) (F 值即為正確率和召回率的調和平均值)。

3.綜合評價指標(F-Measure)

P和R指標有時候會出現的矛盾的情況,這樣就需要綜合考慮他們,最常見的方法就是F-Measure(又稱為F-Score)。F-Measure是Precision和Recall加權調和平均: