python 驗證碼識別示例（二）復雜驗證碼識別

阿新 • • 發佈：2018-08-10

def code 分享切割 edr convert pen https lis

　　在這篇博文中手把手教你如何去分割驗證，然後進行識別。

一：下載驗證碼

　　　　技術分享圖片

　　驗證碼分析，圖片上有折線，驗證碼有數字，有英文字母大小寫，分類的時候需要更多的樣本，驗證碼的字母是彩色的，圖片上有雪花等噪點，因此識別改驗證碼難度較大

二：二值化和降噪：

　　技術分享圖片

　三：切割：

　　　　技術分享圖片

四：分類：

　　　　技術分享圖片

五：測試識別率

　　技術分享圖片　　　　

六：總結：

　　綜合識別率在70%左右，對於這個識別率我覺得還是挺高的，因為這個驗證碼的識別難度還是很大

代碼：

1. 下載圖片：

#-*-coding:utf-8-*- 

import requests

def spider():
    url = "https://www.epailive.com/basic/captcha?ran=0.22070346581876787"
    for i in range(1, 101):
        print("正在下載的張數是：",i)
        with open("./1__get_image/{}.png".format(i), "wb") as f:
            f.write(requests.get(url).content)
spider()

二值化和降噪：

# 
-*-coding:utf-8-*-
# coding:utf-8
import sys, os
from PIL import Image, ImageDraw

# 二值數組
t2val = {}


def twoValue(image, G):
    for y in range(0, image.size[1]):
        for x in range(0, image.size[0]):
            g = image.getpixel((x, y))
            if g > G:
                t2val[(x, y)]  
= 1
            else:
                t2val[(x, y)] = 0


# 根據一個點A的RGB值，與周圍的8個點的RBG值比較，設定一個值N（0 <N <8），當A的RGB值與周圍8個點的RGB相等數小於N時，此點為噪點
# G: Integer 圖像二值化閥值
# N: Integer 降噪率 0 <N <8
# Z: Integer 降噪次數
# 輸出
#  0：降噪成功
#  1：降噪失敗
def clearNoise(image, N, Z):
    for i in range(0, Z):
        t2val[(0, 0)] = 1
        t2val[(image.size[0] - 1, image.size[1] - 1)] = 1

        for x in range(1, image.size[0] - 1):
            for y in range(1, image.size[1] - 1):
                nearDots = 0
                L = t2val[(x, y)]
                if L == t2val[(x - 1, y - 1)]:
                    nearDots += 1
                if L == t2val[(x - 1, y)]:
                    nearDots += 1
                if L == t2val[(x - 1, y + 1)]:
                    nearDots += 1
                if L == t2val[(x, y - 1)]:
                    nearDots += 1
                if L == t2val[(x, y + 1)]:
                    nearDots += 1
                if L == t2val[(x + 1, y - 1)]:
                    nearDots += 1
                if L == t2val[(x + 1, y)]:
                    nearDots += 1
                if L == t2val[(x + 1, y + 1)]:
                    nearDots += 1

                if nearDots < N:
                    t2val[(x, y)] = 1


def saveImage(filename, size):
    image = Image.new("1", size)
    draw = ImageDraw.Draw(image)

    for x in range(0, size[0]):
        for y in range(0, size[1]):
            draw.point((x, y), t2val[(x, y)])

    image.save(filename)

for i in range(1, 101):

    path = "1__get_image/" + str(i) +  ".png"
    image = Image.open(path)

    image = image.convert(‘L‘)
    twoValue(image, 198)
    clearNoise(image, 3, 1)
    path1 = "2__erzhihua_jiangzao/" + str(i) + ".jpg"
    saveImage(path1, image.size)

三：切割驗證碼：

#-*-coding:utf-8-*-


from PIL import Image



def smartSliceImg(img, outDir, ii,count=4, p_w=3):
    ‘‘‘
    :param img:
    :param outDir:
    :param count: 圖片中有多少個圖片
    :param p_w: 對切割地方多少像素內進行判斷
    :return:
    ‘‘‘
    w, h = img.size
    pixdata = img.load()
    eachWidth = int(w / count)
    beforeX = 0
    for i in range(count):

        allBCount = []
        nextXOri = (i + 1) * eachWidth

        for x in range(nextXOri - p_w, nextXOri + p_w):
            if x >= w:
                x = w - 1
            if x < 0:
                x = 0
            b_count = 0
            for y in range(h):
                if pixdata[x, y] == 0:
                    b_count += 1
            allBCount.append({‘x_pos‘: x, ‘count‘: b_count})
        sort = sorted(allBCount, key=lambda e: e.get(‘count‘))

        nextX = sort[0][‘x_pos‘]
        box = (beforeX, 0, nextX, h)
        img.crop(box).save(outDir + str(ii) + "_" + str(i) + ".png")
        beforeX = nextX

for ii in  range(1, 101):
    path = "2__erzhihua_jiangzao/" + str(ii) + ".jpg"
    img = Image.open(path)
    outDir = ‘3__qiege/‘
    smartSliceImg(img, outDir, ii,count=4, p_w=3)

四：訓練：

#-*-coding:utf-8-*-

import numpy as np
import os
import time

from PIL import Image
from sklearn.externals import joblib
from sklearn.neighbors import KNeighborsClassifier


def load_dataset():
    X = []
    y = []
    for i in "23456789ABVDEFGHKMNPRSTUVWXYZ":
        target_path = "fenlei/" + i
        print(target_path)
        for title in os.listdir(target_path):
            pix = np.asarray(Image.open(os.path.join(target_path, title)).convert(‘L‘))
            X.append(pix.reshape(25 * 30))
            y.append(target_path.split(‘/‘)[-1])

    X = np.asarray(X)
    y = np.asarray(y)
    return X, y

def check_everyone(model):
    pre_list = []
    y_list = []
    for i in "23456789ABCDEFGHKMNPRSTUVWXYZ":
        part_path = "part/" + i
        for title in os.listdir(part_path):
            pix = np.asarray(Image.open(os.path.join(part_path, title)).convert(‘L‘))
            pix = pix.reshape(25 * 30)
            pre_list.append(pix)
            y_list.append(part_path.split(‘/‘)[-1])
    pre_list = np.asarray(pre_list)
    y_list = np.asarray(y_list)

    result_list = model.predict(pre_list)
    acc = 0
    for i in result_list == y_list:
        print(result_list,y_list,)

        if i == np.bool(True):
            acc += 1
    print(acc, acc / len(result_list))


X, y = load_dataset()
knn = KNeighborsClassifier()
knn.fit(X, y)
joblib.dump(knn, ‘yipai.model‘)
check_everyone(knn)

六：測試：

# -*- coding: utf-8 -*-

import numpy as np
from PIL import Image
from sklearn.externals import joblib
import os

target_path = "1__get_image/"
source_result = []
for title in os.listdir(target_path):
    source_result.append(title.replace(‘.png‘,‘‘))


def predict(model):
    predict_result = []
    for q in range(1,101):
        pre_list = []
        y_list = []
        for i in range(0,4):
            part_path = "part1/" + str(q) + "_" + str(i) + ".png"
            # print(part_path)
            pix = np.asarray(Image.open(os.path.join(part_path)))
            pix = pix.reshape(25 * 30)
            pre_list.append(pix)
            y_list.append(part_path.split(‘/‘)[-1])
        pre_list = np.asarray(pre_list)
        y_list = np.asarray(y_list)

        result_list = model.predict(pre_list)
        print(result_list,q)


        predict_result.append(str(result_list[0] + result_list[1] + result_list[2] + result_list[3]))

    return predict_result


model = joblib.load(‘yipai.model‘)
predict_result = predict(model)
# print(source_result)
# print(predict_result)

python 驗證碼識別示例（二）復雜驗證碼識別

def code 分享切割 edr convert pen https lis 　　在這篇博文中手把手教你如何去分割驗證，然後進行識別。一：下載驗證碼　　　　　　驗證碼分析，圖片上有折線，驗證碼有數字，有英文字母大小寫，分類的時候需要更多的樣本，驗證碼的字母

VirtualBox 及一些特殊USB（無驅動）的識別問題（二）解決了不能識別一些特殊USB的問題（其實就是插著USB重啟，很簡單）

原來手機怎麼也連不上Linux ，碰巧這幾天又在搞VirtualBox虛擬，剛好手機當時又插上USB的，重啟了下，識別出來了：），只要重啟電腦，不作如下設定，手機都能被識別（不知原因）；作個標記，有時間再慢慢研究。（或者按下面流程過一遍，再恢復原狀，手機就可以被識別了），

Android實現二維碼掃描功能（二）-ZXing個性化與近距離識別優化

簡介本篇我們對掃碼介面進行優化，並對ZXing近距離無法識別的問題做出優化。個性化定製每個APP都有自己的表現形式，實現個性化掃碼介面定製，主要有兩個地方： activity_scanner.xml介面檔案 com.google.zxin

驗證碼的製作（二）：使用開源元件jcaptcha來實現驗證碼

package com.octo.captcha.module.servlet.image.sample; import com.octo.captcha.module.servlet.image.SimpleImageCaptchaServlet; import java.io.IOException;

使用Python+TensorFlow2構建基於卷積神經網路（CNN）的ECG心電訊號識別分類（二）

## 心律失常資料庫目前，國際上公認的標準資料庫包含四個，分別為美國麻省理工學院提供的MIT-BIH（Massachusetts Institute of Technology-Beth Israel Hospital Database, MIT-BIH）資料庫、美國心臟學會提供的AHA（ America

JMeter接口測試示例（二）

jmeter 請求方式 user mon idt 長度參數方式 mil 獲取用戶余額功能描述獲取用戶余額：傳入userid獲取用戶余額請求地址 http://api.nnzhp.cn/getmoney 請求方式 Post請求入參，入參是json類型

vue-router單頁應用簡單示例（二）

數據 prop tps div -1 可重用性 example 定位 .com 我們先來理一下思路。圖1:main.js 引入vue,App.vue,router/index.js文件聲明要渲染的Id為app，將App.vue中的模版渲染到入口界面（就

Centos 7.0 編譯安裝LAMP（Linxu+apache+mysql+php）之源碼安裝Mysql （二）

php mysql apache mysql 簡介： MySQL是一個關系型數據庫管理系統，關系數據庫將數據保存在不同的表中，這樣就增加了速度並提高了靈活性。目前其屬於 Oracle 旗下產品。MySQL 是最流行的關系型數據庫管理系統之一，在 WEB 應用方面，MySQL是最好的 RD

Python正則表達式（二）

發生 sub pre 則表達式正則表達式 str1 blog 回發 clas sub()和subn() sub(pattern,repl,string,count=0) 用於實現搜索和替換功能，使用repl替換所有正則表達式的模式在字符串中出現的位置，除非定義co

RPC框架研究（二）Hadoop源代碼-1

trac 挑戰 b2c ott 技術分享 style dsm mod spa 報名了阿裏中間件性能大賽，我來說是一個全新的挑戰。一切從空白學起，比賽的過程也是學習的過程是的。想讓自己學好。給自己報一個比賽吧~ 就像當初學圍棋，也是報了圍棋比賽，為

python的引用計數分析（二）

裏的 %20 賦值手動計數 python 作用域新的 pri python所有對象引用計數被減少1的情況：一.對象的別名被賦予新的對象; a = 23345455 # 增加了一個引用 b = a # 增加了一個引用 print(sys.getrefcount(

python 數據類型（二）

必須 one set 方式數據順序就是 erro art 一、dict d = { ‘Adam‘: 95, ‘Lisa‘: 85, ‘Bart‘: 59 }查：訪問dict中的元素：d[‘Adam‘]如果dict中Key不存在會報錯：KeyEr

python中的數組（二）

print pre bsp 數組元素如何 python clas 範圍 ber python如何取一定範圍的數組元素呢？　　詳情看示例1--3 直接看代碼 1.分片 1 #取一定範圍的元素 2 lucky_number = [0,1,2,3,4,5,6] 3 #分片

如何用C++ 寫Python模塊擴展（二）

unsigned 結構 num ins head stl methods 兩個 spec Python模塊包含的類創建（下）類的方法表創建直接上代碼 static PyMethodDef VCam_MethodMembers[] = //類的所有成員函數

第五章 MNIST數字識別問題（二）

AR dom post mod 變量名 elements 之前 spl with 4.1. ckpt文件保存方法在對模型進行加載時候，需要定義出與原來的計算圖結構完全相同的計算圖，然後才能進行加載，並且不需要對定義出來的計算圖進行初始化操作。這樣保存下來的模型，會在其文

Python中操作mysql知識（二）

python mysql 1.創建表Teacher：create table Teacher( teaId int not null, teaname varchar(100), age int, sex enum('M', 'F'), phone int);

Python的語言基礎總結（二）之循環與字符串操作

整數範圍輸入 IV 字符串 spl 余額 upper ict 一、循環和分支　　1.　　條件分支語句　　if　　條件：　　　　代碼塊　　else: 　　　　代碼塊　　2.　　循環語句之while 　　思考1：求1+2+3+....+10的值　　 sum =

[java源碼解析]對HashMap源碼的分析（二）

具體實現修改 ring 數組大小 inflate 大小 transient misc ear 上文我們講了HashMap那騷騷的邏輯結構，這一篇我們來吹吹它的實現思想，也就是算法層面。有興趣看下或者回顧上一篇HashMap邏輯層面的，可以看下HashMap源碼解析（一）。

Python基礎班每日整理（二）

每日設置語法基礎大件例如計算 str 功能 02_Python基礎_day02 Python中註釋的作用？單行和多行註釋在程序中對某些代碼進行標註說明，增強程序的可讀性。單行註釋：以#號開頭，再加一個空格，後面跟上註釋內容TODO註釋：# TODO 註釋內容

android6.0指紋識別學習（二）--------阿冬專欄！！！

轉載自：http://blog.csdn.net/baniel01/article/details/51991764 在Android 6.0中google終於給android系統加上了指紋識別的支援，這個功能在iPhone上早就已經實現了，並且在很多廠商的定製的R

python 驗證碼識別示例（二） 復雜驗證碼識別

相關推薦

python 驗證碼識別示例（二）復雜驗證碼識別