15分鐘破解網站驗證碼

阿新 • • 發佈：2019-01-16

概述

http://www.bugcode.cn/break_captcha.html

很多開發者都討厭網站的驗證碼，特別是寫網路爬蟲的程式設計師，而網站之所以設定驗證碼，是為了防止機器人訪問網站，造成不必要的損失。現在好了，隨著機器學習技術的發展，機器識別驗證碼的問題比較好解決了。

樣本採集工具

這裡我們採用wordpress的Really Simple CAPTCHA生成驗證碼的外掛，之所以選擇這個外掛，一個是它的安裝量很大，二個是因為它是開源的，我們可以利用它批量的生成驗證碼圖片。

目標估計

我們通過demo網站得知，Really Simple CAPTCHA生成的是包含4個數字或者字母的圖片，通過閱讀原始碼得知，這個外掛還遮蔽了O和I這兩個比較容易混淆的字母，也就是說，還剩下32個字元，看來可以完成。目前花費了兩分鐘。

依賴

我們要用到以下的工具和庫。

python3
opencv
keras
tensorflow

建立樣本集

為了達到目的，我們首先要準備樣本集，樣本如下：

使用Really Simple CAPTCHA外掛的原始碼，我們很方便的批量生成10000個驗證碼圖片和對應的結果，待我們生成完成後，大概如下：樣本集

這地方大家可以根據自己的實際情況修改Really Simple CAPTCHA外掛的原始碼，來生成自己想要的樣本集。如果你覺著麻煩，也可以下載我生成好的。

目前為止，我們花了五分鐘。

如何訓練

我們現在有了樣本集了，我們可以直接那圖片和對應的結果直接進行神經網路的訓練。只要我們的樣本夠多，最終也能達到我們想要的效果。

但我們也可以採用更好的訓練方法，這個訓練方法使用更少的樣本資料，但是結果要比直接訓練的方法好很多，我想你已經猜到了，這個方法就是把圖片中的四個字元切割開，形成四個樣本。這方法之所以可行，是因為所有的驗證碼圖片都是4個字元的。 split

10000張圖片，一張一張手動用PS去切割，肯定不現實，而且由於圖片的橫向排列並不是等間距的，字元間的距離大小不一致，手動切割肯定不可能了。 split2

其實我們只要畫出一個矩形，保證矩形框裡只有字元就可以，然後從圖片中切出這樣的一個矩形，就形成了一個單個字元的圖片樣本。幸運的是，這個操作opencv已經幫我們實現了，opencv有個函式叫做findContours()，可以按照同樣色值的區域裁剪我們想要的矩形。- 首先準備一個圖片：

- 轉換圖片為黑白色。這樣有字元的地方為黑色，空白為白色，便於opencv裁剪。

-接下來我們用opencv的findContours函式切割圖片。

接下來，我們就把圖片從左到右進行切割，並存儲切割後的圖片，以及圖片對應的字元。但是實際操作的過程中，我發現一個問題，就是有時候兩個字元靠的太近，導致opencv在切割的時候，把兩個字元切割刀一個圖片裡了，比如：切割完的效果是：如果不解決這個問題，我們的樣本集就不準了，那訓練出來的模型也就不可能正確了。我的解決方法是，首先設定一個字元寬最大的畫素，如果超過這個畫素，則認為一個圖片中包含了兩個字元，然後我們選擇把這個圖片對半切割，分成兩個字元。例如：好，我們現在得到了一個驗證碼圖片對應的4個字元的圖片，現在我們把所有的樣本圖片都切割好，然後，把相同的字元對應的圖片放到一個資料夾，這麼做的目的是儘量多的找出同一個字元的多種樣式。結果如下：到目前為止，我花了10分鐘。

訓練模型

因為我們只是識別圖片對應的數字或者字母，所以我們不需要特別複雜的神經網路演算法。識別字符比識別小貓小狗的簡單多了。我這地方使用卷積神經網路，two convolutional layers and two fully-connected layers。這地方對卷積神經網路演算法就不做詳細介紹，感興趣的同學，可以google學習一下。訓練完成後，我們需要測試一下。15分鐘花完。

總結

整個過程看起來很簡單：- 從使用我們上述提到的外掛的wordpress網站上下載驗證碼圖片- 把圖片切割成包含單個字元的小圖片- 使用神經網路演算法訓練模型- 預測新的驗證碼圖片對應的字元

下面是我的測試：

程式碼

你可以從這得到完整的程式碼和示例圖片，你可以參照README來執行相關的程式。

15分鐘破解網站驗證碼

概述

樣本採集工具

目標估計

依賴

建立樣本集

如何訓練

訓練模型

總結

程式碼

轉載自我的部落格捕蛇者說

15分鐘破解網站驗證碼

keras入門（三）搭建CNN模型破解網站驗證碼

搭建CNN模型破解網站驗證碼！Python大法真的好！

15 分鐘用 ML 破解一個驗證碼系統

破解需驗證碼登入網站～ing

【精華】PHP網站驗證碼不顯示的終結解決方案

picturebox加載圖片的三種方法與網站驗證碼的抓取

python下調用pytesseract識別某網站驗證碼

使用深度學習的CNN神經網路破解Captcha驗證碼

破解滑動驗證碼(極驗)

python selenium接入打碼平臺破解豆瓣驗證碼登入

【Java分享】3分鐘接入簡訊驗證碼介面的全過程，只需3步。

[TensorFlow深度學習深入]實戰二·使用CNN網路識別破解數字驗證碼

網站驗證碼不顯示，報錯：無法向會話狀態伺服器發出會話狀態請求請。確保 ASP.NET State Service (ASP.NET 狀態服務)已啟動

使用深度學習破解字元驗證碼(轉)

Python指令碼破解圖形驗證碼(tesserocr和pytesseract)

呼叫第三方打碼平臺破解圖片驗證碼

Python應用（一）識別網站驗證碼以及識別演算法

如何使用reCaptcha（2.0版本）來做網站驗證碼

破解滑動驗證碼（selenium, opencv）

15分鐘破解網站驗證碼

概述

樣本採集工具

目標估計

依賴

建立樣本集

如何訓練

訓練模型

總結

程式碼

轉載自我的部落格捕蛇者說

相關推薦