1.L1和L2的區別

L1:預測值與實際值差值的絕對值之和

L2:預測值與實際值差值的平方之和

2.L1為什麼能稀疏矩陣L2不能:

矩陣指的是模型引數組成的矩陣,稀疏是指模型引數很多是0。

為什麼L1可以呢,從一個特徵的模型來觀察,損失函式為 F(w)=f+ b|w| (w為實際差值只和,f=ax-y a為引數,x為特徵y為實際值 ),看到如果a=0 b=1 前後兩項抵消 F(w)會為達到0。這種為0的引數多了因此矩陣就稀疏了,而L2為平方不能實現前後抵消的情況

3.L2為什麼能解決過擬合

意思是如果不加懲罰項,從梯度下降演算法考慮,則引數會越來越大,把所有答案都“背住”,因此出現過擬合,增加這一項是對哪些比較大的引數加一個懲罰,防止出現上述情況。