1. 程式人生 > >2019秋招面試題-機器學習部分

2019秋招面試題-機器學習部分

一、TF-IDF

有很多不同的數學公式可以用來計算TF-IDF。這邊的例子以上述的數學公式來計算。詞頻 (TF) 是一詞語出現的次數除以該檔案的總詞語數。假如一篇檔案的總詞語數是100個,而詞語“母牛”出現了3次,那麼“母牛”一詞在該檔案中的詞頻就是3/100=0.03。一個計算檔案頻率 (IDF) 的方法是檔案集裡包含的檔案總數除以測定有多少份檔案出現過“母牛”一詞。所以,如果“母牛”一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是 lg(10,000,000 / 1,000)=4。最後的TF-IDF的分數為0.03 * 4=0.12。


某一特定檔案內的高詞語頻率,以及該詞語在整個檔案集合中的低檔案頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。

二、分類和迴歸的損失函式

分類:

1、 0-1損失 (zero-one loss)

2、Logistic loss

 

*********************************************************************

迴歸:

https://blog.csdn.net/reallocing1/article/details/56292877

MSE: Mean Squared Error 
均方誤差是指引數估計值與引數真值之差平方的期望值; 

RMSE 
均方誤差:均方根誤差是均方誤差的算術平方根

MAE :Mean Absolute Error 
平均絕對誤差是絕對誤差的平均值 
平均絕對誤差能更好地反映預測值誤差的實際情況.

SD :standard Deviation 
標準差:標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組組資料,標準差未必相同。