Python爬蟲專案實戰3 | 圖片文字識別（以驗證碼識別為例）

阿新 • • 發佈：2019-01-06

1.專案背景

我在實習過程中，當我抓取環保平臺相關資料時，常常發現有圖片的情況，比如以下這種圖片，所以抓取這種圖片中的資訊是我進行圖片文字識別的動力：

2.專案思路

因為在某一網站中有大量這種想要抓取的圖片，所以我的思路是，

1.先抓取這些圖片的名稱和URL；

2.然後再根據這些URL得到圖片資訊；

3.然後識別資訊。

3.驗證碼圖片識別示例

【1】首先，我們可以找一個有很多驗證碼的網站，比如：驗證碼處理網站；從網站頁面原始碼(在網站中右鍵)中找到圖片的URL，以及他們的名稱，然後將這些圖片下載下來，程式碼如下：

spicerman.py

import re
import requests
from bs4 import BeautifulSoup
import chardet
from urllib import parse

url = 'https://captcha.com/captcha-examples.html?cst=corg'
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0'
headers = {
    'User-Agent': user_agent
}
response = requests.get(url, headers=headers, timeout=10)
response.encoding = chardet.detect(response.content)['encoding']
html = response.text
soup = BeautifulSoup(html, 'lxml')

# 提取我們想要的資訊，即圖片資訊
image_list = soup.find_all(name='img', class_='captcha_sample')
image_names = soup.find_all(name='h3')

image_urls = list()
seq = 0
for image in image_list:
    image_url = parse.urljoin(url, image['src'])
    image_urls.append(image_url)
    print(image_url)
    with open("urls.txt", 'a') as fout:
        fout.write(image_url)
        fout.write('\n')
    # 根據url下載圖片
    try:
        url_res = requests.get(image_url, headers=headers, timeout=10)
        if url_res.status_code == 200:
            name = image_names[seq].text + '.jpg'
            with open(name, 'wb') as fout:
                fout.write(url_res.content)
                print('第{}圖片下載成功!'.format(seq))
    except Exception as e:
        print(e)

    seq += 1

【2】然後，我們可以藉助百度的圖片識別模組來處理，百度AI開放平臺的連結為：http://ai.baidu.com。在網頁右上角的控制檯登入，之後會顯示如下：

【3】看到左側有“文字識別”的選單，按一下：

【4】然後建立應用，名字隨意，建立後，會顯示如下網頁資訊，在網頁中有應用的AppID,APIKey和Secret Key：

【5】使用上述的資訊，我們便可以使用百度的圖片識別啦，模組為aip，在終端安裝為pip3 install aip。當然，關於模組的文件可在網站中找到，不再贅述。

實現的recognizer.py如下：

from aip import AipOcr

# 填入你自己的資訊
APP_ID = '1××××××8'
API_KEY = 'k×××××××××××××××××h81'
SECRET_KEY = 'a×××××××××××××××××××××KV'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)


# 讀取圖片
def get_file_content(filepath):
    with open(filepath, 'rb') as fp:
        return fp.read()

# 呼叫通用文字識別，圖片引數為本地圖片
image = get_file_content('Wave Captcha Image.jpg')
# 定義引數變數
options = {
    # 定義影象方向
    'detect-direction': 'true',
    'language-type': 'CHN_ENG'
}
result = client.general(image, options)
print(result)
for word in result['words_result']:
    print(word['words'])

【6】在控制檯便顯示圖片中的資訊啦～

如下是我識別最前面圖片中的資訊：

Python爬蟲專案實戰3 | 圖片文字識別（以驗證碼識別為例）

1.專案背景我在實習過程中，當我抓取環保平臺相關資料時，常常發現有圖片的情況，比如以下這種圖片，所以抓取這種圖片中的資訊是我進行圖片文字識別的動力： 2.專案思路因為在某一網站中有大量這種想要抓取的圖片，所以我的思路是， 1.先抓取這些圖片的名稱和URL； 2.然後再根

Python——爬取人口遷徙數據（以騰訊遷徙為例）

map car img all spa ima tps .sh compile 說明： 1.遷徙量是騰訊修改後的數值，無法確認真實性。 2.代碼運行期間，騰訊遷徙未設置IP屏蔽和瀏覽器檢測，因此下段代碼僅能保證發布近期有效。 3.代碼功能：爬取指定一天的四十個城市左右的遷徙

詳解如何用爬蟲採集視訊播放量資料（以騰訊視訊為例）

現代社會提到大資料大家都知道這是近幾年才形成的對於資料相關的新名詞，在1980年，著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中，將大資料熱情地讚頌為“第三次浪潮的華彩樂章”。在 20 世紀 80 年代我國已經有一些專家學者談到了海量資料的加工和管理，但是由於計算機技術和網路技術的限制大資料

3. CKeditor+ckfinder ---CKFinder原始碼修改上傳自定義資料夾名（以時間年月YYYYMM為例）

1 準備請自行參考第2文章此處就不做過多解釋了 ^_^ 2. CKeditor+ckfinder ---CKFinder原始碼修改自定義上傳檔名，連結如下修改上傳檔名 2 查詢官網資料連結如下

idea給現有web專案建立子maven web模組專案--搭建流程（以淘淘商城為例）

maven web專案主要搭建流程： 1、用任意Java開發工具ide中maven外掛（或其他外掛）建立父子web專案骨架 2、完善web專案的目錄結構（如果以下骨架已自動建好，忽略此步驟） src/main/java src/main/

均勻分佈構造離散型隨機變數（以泊松分佈為例）python

我們知道，把服從(0,1)均勻分佈的隨機變數代入任一連續性分佈函式的反函式，即可得到服從該分佈的隨機變數。那麼，若分佈是離散型的呢？其實與構造連續性隨機變數的思想是一樣的。因為分佈函式在[0,1]內

caffe 實戰系列：如何寫自己的資料層（以Deep Spatial Net為例）

一、前言想寫自己的層，首先必須得在caffe.proto中定義自己層的引數，以便於在proto配置檔案中對引數進行配置啦什麼的，其次你還要在caffe.proto宣告你的層的引數是可選的，然後你得在caffe的include目錄下新增你自己層的hpp標頭檔案，以及在c

Win7下安裝Python影象處理庫PIL、pytesser、tesseract進行驗證碼識別

前言今天看見一個關於Python進行驗證碼識別的文章，其中程式碼很短，但是感覺很有趣，加上最近也在學習一些簡單的Python知識，所以決定實驗一下準備工作 PIL版本選擇從網上搜索得知，PIL官方只有32位的安裝檔案，安裝時會提示找不到py

網路資訊保安攻防學習平臺--指令碼關 11關驗證碼識別分值: 350 驗證碼識別 Tips:驗證碼依然是3位數詳解

涉及到驗證碼和資料獲取，暴力破解是直觀選擇。可以百度，有好幾個部落格發了文章。本處提兩個操作方法的區別問題：urllib.request.urlretrieve('http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f2

python中如何建立資料夾（以丟擲異常為依據）

【時間】2018.11.15 【題目】python中如何建立資料夾（以丟擲異常為依據）概述在python中，可以使用os.makedirs(path)建立資料夾，可是如果需要建立多個資料夾，比如你在將包含多個子資料夾中的檔案複製到另一個資料夾中時，這時如果一個個建立資料夾，程式碼會顯

python安裝教程（Windows系統,python3.7為例）

1. 在python的官網下載python對應版本：https://www.python.org/downloads/windows/ 64位下載Windows x86-64 executable installer 版本 &

微信公眾號介面呼叫JS-SDK（vue專案，以掃一掃為例）

該方法需引入微信js-sdk ，先npm安裝 //在一個地方呼叫this.weixin()方法，比如說按鈕 //寫掃一掃方法 weixin() { var that = this; var url=''; var params =

Python爬蟲開發與專案實戰 3: 初識爬蟲

3.1 網路爬蟲概述概念：按照系統結構和實現技術，大致可分：通用網路爬蟲、聚焦爬蟲、增量式爬蟲、深層爬蟲。實際的爬蟲系統通常是幾種技術的相結合實現的。搜尋引擎：屬於通用爬蟲，但存在一定的侷限性：

python爬蟲實現登陸簡單圖片驗證碼識別（Tesseract識別）

Tesseract下載與安裝附：德國曼海姆大學發行的3.05版本下載安裝與配置PATH環境變數安裝略，環境變數只要將目錄新增到PATH路徑，PATH路徑針對於命令列解析。 tesseract 1.png output-l eng -psm 7 -ps

Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰：爬取 169美女圖片網高清圖片

開發環境 Python第三方庫：lxml、Twisted、pywin32、scrapy Python 版本：python-3.5.0-amd64 PyCharm軟體版本：pycharm-professional-2016.1.4 電腦系統：Wi

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

python專案實戰:處理圖片實現畫素點的訪問

前言今天為大家介紹一個利用Python處理圖片來實現對畫素點的訪問,在這裡你可以進行很多的操作,比如圖片灰化,你可以改變圖片的

python專案實戰:選擇圖片地址製作縮圖

前言今天為大家介紹一個利用Python製作圖片縮圖的案例,你可以選擇圖片的大小,根據圖片的地址選擇圖片,用tk這個Python

Python工業網際網路監控專案實戰3—websocket to UI

　　本小節繼續演示如何在Django專案中採用早期websocket技術原型來實現把OPC服務端資料實時推送到UI端，讓監控頁面在另一種技術方式下，實時顯示現場裝置的工藝資料變化情況。本例我們仍然採用比較輕量級的dwebsocket元件。 1. 安裝dwebsocket元件　　安裝命令

python 爬蟲獲取文件式網站資源（基於python 3.6）

codes 網頁大小 file sel dal 網頁代碼目錄多級目錄 import urllib.requestfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinfrom Cat.findLink

Python爬蟲專案實戰3 | 圖片文字識別（以驗證碼識別為例）

1.專案背景

2.專案思路

3.驗證碼圖片識別示例

相關推薦