NP難問題與過擬合

阿新 • • 發佈：2019-01-18

NP問題一直都是資訊學的巔峰。巔峰，意即很引人注目但難以解決。在資訊學研究中，這是一個耗費了很多時間和精力也沒有解決的終極問題，好比物理學中的大統一和數學中的歌德巴赫猜想等。

P類問題的概念：如果一個問題可以找到一個能在多項式的時間裡解決它的演算法，那麼這個問題就屬於P問題。

NP問題是指可以在多項式的時間裡驗證一個解的問題。很顯然，Hamilton迴路是NP問題，因為驗證一條路是否恰好經過了每一個頂點非常容易。但我要把問題換成這樣：試問一個圖中是否不存在Hamilton迴路。這樣問題就沒法在多項式的時間裡進行驗證了，因為除非你試過所有的路，否則你不敢斷定它“沒有Hamilton迴路”。

很顯然，所有的P類問題都是NP問題。也就是說，能多項式地解決一個問題，必然能多項式地驗證一個問題的解——既然正解都出來了，驗證任意給定的解也只需要比較一下就可以了。關鍵是，人們想知道，是否所有的NP問題都是P類問題。我們可以再用集合的觀點來說明。如果把所有P類問題歸為一個集合P中，把所有 NP問題划進另一個集合NP中，那麼，顯然有P屬於NP。現在，所有對NP問題的研究都集中在一個問題上，即究竟是否有P=NP？通常所謂的“NP問題”，其實就一句話：證明或推翻P=NP。

在研究NP問題的過程中找出了一類非常特殊的NP問題叫做NP-完全問題，也即所謂的 NPC問題。為了說明NPC問題，我們先引入一個概念——約化(Reducibility，有的資料上叫“歸約”)。

簡單地說，一個問題A可以約化為問題B的含義即是，可以用問題B的解法解決問題A，或者說，問題A可以“變成”問題B。《演算法導論》上舉了這麼一個例子。比如說，現在有兩個問題：求解一個一元一次方程和求解一個一元二次方程。那麼我們說，前者可以約化為後者，意即知道如何解一個一元二次方程那麼一定能解出一元一次方程。我們可以寫出兩個程式分別對應兩個問題，那麼我們能找到一個“規則”，按照這個規則把解一元一次方程程式的輸入資料變一下，用在解一元二次方程的程式上，兩個程式總能得到一樣的結果。這個規則即是：兩個方程的對應項係數不變，一元二次方程的二次項係數為0。按照這個規則把前一個問題轉換成後一個問題，兩個問題就等價了。

“問題A可約化為問題B”有一個重要的直觀意義：B的時間複雜度高於或者等於A的時間複雜度。也就是說，問題A不比問題B難。這很容易理解。既然問題A能用問題B來解決，倘若B的時間複雜度比A的時間複雜度還低了，那A的演算法就可以改進為B的演算法，兩者的時間複雜度還是相同。正如解一元二次方程比解一元一次方程難，因為解決前者的方法可以用來解決後者。

再回想前面講的P和NP問題，聯想起約化的傳遞性，自然地，我們會想問，如果不斷地約化上去，不斷找到能“通吃”若干小NP問題的一個稍複雜的大NP問題，那麼最後是否有可能找到一個時間複雜度最高，並且能“通吃”所有的 NP問題的這樣一個超級NP問題？答案居然是肯定的。也就是說，存在這樣一個NP問題，所有的NP問題都可以約化成它。換句話說，只要解決了這個問題，那麼所有的NP問題都解決了。這種問題的存在難以置信，並且更加不可思議的是，這種問題不只一個，它有很多個，它是一類問題。這一類問題就是傳說中的NPC 問題，也就是NP-完全問題。

順便講一下NP-Hard問題。NP-Hard問題是這樣一種問題，它滿足NPC問題定義的第二條但不一定要滿足第一條（就是說，NP-Hard問題要比 NPC問題的範圍廣）。NP-Hard問題同樣難以找到多項式的演算法，但它不列入我們的研究範圍，因為它不一定是NP問題。即使NPC問題發現了多項式級的演算法，NP-Hard問題有可能仍然無法得到多項式級的演算法。事實上，由於NP-Hard放寬了限定條件，它將有可能比所有的NPC問題的時間複雜度更高從而更難以解決。

過擬合問題

機器學習簡單來說就是根據樣本訓練出模型來預測其他樣本的輸出，最簡單的線性模型如下：

這裡寫圖片描述

我們知道這是一個一元T次方程，存在T個引數，每個引數值的可行域理論上是從負無窮到正無窮。那麼可行解的狀態空間是無窮的指數級別的。我們可以把機器學習的過程看作是一個在所有可行解的狀態空間中進行搜尋的過程，然後找到問題的最優解。

那麼顯而易見，這是個NP難甚至更難的問題，而有效的學習演算法，如梯度下降法必然是在多項式時間內執行完成，若可徹底避免過擬合，則通過訓練誤差最小化就能獲得最優解，這就意味著我們構造性地證明了“P = NP”；因此，只要我們相信P不等於NP，過擬合就不可避免。

另一方面，我們這個模型是在假設樣本是符合二項分佈的情況下建立的，但是很多時候，樣本之間是有相互影響的，不可能做到獨立同分布。因此這個模型簡化了問題，自然對之後樣本的預測存在誤差，這也是過擬合問題不可避免的原因之一。

NP難問題與過擬合

過擬合問題

NP難問題與過擬合

偏差與方差，欠擬合與過擬合

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

欠擬合與過擬合的區別

機器學習筆記2—— 欠擬合與過擬合

機器學習中擬合與過擬合

17.【進階】模型正則化--欠擬合與過擬合問題

機器學習之——欠擬合與過擬合

ML基礎教程：泛化與過擬合、正規化最小二乘法

偏差與方差分解，與過擬合欠擬合的聯絡？

機器學習迴歸演算法—效能評估欠擬合與過擬合

維度災難與過擬合（轉）

細品 - 過擬合與模型選擇*

TensorFlow 過擬合與正則化(regularizer)

ng機器學習視頻筆記（五） ——過擬合與正則化

機器學習之路： python線性回歸過擬合 L1與L2正則化

深度學習---過擬合與欠擬合

第七章經驗誤差，過擬合與評估方法（留出法，交叉驗證法，自助法）

【A】機器學習過擬合與正則化

如何解決過擬合與欠擬合

NP難問題與過擬合

過擬合問題

相關推薦