python填坑之路:tesserocr配置

阿新 • • 發佈：2018-12-02

最近在學爬蟲，在模擬登入網站的時候常常需要輸入驗證碼，最常見的就是OCR(Optical Character Recognition,光學字元識別），於是乎瞭解到tesserocr這個庫，但是安裝的過程可謂坎坷。

大致的過程可參考部落格：崔慶才的個人部落格，但是最好注意以下幾點

將tesseract(注意不是tesserocr)的安裝路徑加入環境變數。
將tesseract安裝目錄下的tessdata資料夾複製到你python的安裝路徑中去。如下

3. 如果pip3 install tesserocr pillow失敗，考慮使用下載whl檔案安裝，可參考我之前的一篇博文

whl檔案下載地址：https://github.com/simonflueckiger/tesserocr-windows_build/releases

下面給出一個例項，我在爬取學校教務系統資料用到的，這個系統我後面有空會詳細展開，下面僅給出用於ocr部分的程式碼：

import requests
import os
import tesserocr
from PIL import Image
import re
from requests.exceptions import RequestException
headers ={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}

def download_image(url):
    print('當前正在下載驗證碼圖片',url)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            save_image(response.content)
        return None
    except RequestException:
        print('下載驗證碼圖片出錯',url)
        return None

def save_image(content):
    file_path = 'code.jpg'
    if os.path.exists(file_path):
        os.remove(file_path)
    with open(file_path,"wb") as f:
        f.write(content)
        f.close()

def get_ocr():
    download_image("http://csujwc.its.csu.edu.cn/verifycode.servlet")
    image = Image.open("code.jpg")
    image = image.convert('L')
    threshold = 127
    table =[]
    for i in range(256):
        if i<threshold:
            table.append(0)
        else:
            table.append(1)
    image = image.point(table,'1')
    result = tesserocr.image_to_text(image)
    result = re.sub('\s','',result)
    result = result.lower()
    if len(result)>4:
        result = result[0:4]
    print("result:"+result)
    return result

if __name__ =="__main__":
    get_ocr()

python填坑之路:tesserocr配置

python函式引數的填坑之路

背景最近在看廖雪峰老師的python3教程之函式的引數受益匪淺，但是在實踐的過程中，發現了一些不解之謎兩個錯誤 import _thread import time def func1(x): while x: print(x) x = x -1 _threa

Python 學習填坑之路(持續更新中...)

sqlalchemy.exc.InternalError: (pymysql.err.InternalError) (1005, "Can't create table 'movie.admin

記錄一下openvpn，填坑之路

openvpn題目，占位。。。整理一下，工作中遇到的openvpn的問題需求：兩個辦公地點：青島、北京；北京的小夥伴需要訪問青島辦公區的內網，同時需要訪問阿裏雲服務器。解決方案：在阿裏雲跳板機上以及青島辦公區安裝openvpn。jumper上之起server，青島辦公區起server+client。遇到的問題

tensorboard的可視化小白踩坑填坑之路

main session png lose 分享 cts program use vid 首先說tensorflow這個框架是真的很是強大，圖像的識別，以及神經網絡的構建，還有就是不得不說的可視化工具tensorboard，這個工具一般是伴隨著tensorflow的安裝

開發小程序(填坑之路，遇到一點就更新一點)

頁面 for page 開發工具 sign 上傳 nco lse tor 1.開發小程序發送請求時，報錯不在以下合法列表中：在開發工具詳情中設置：請參考微信官方文檔：關於小程序網絡相關API說明 2.如果你需要權限驗證(如登錄後訪問)，小程序不像瀏覽器能幫你自動攜

小程式填坑之路——文字超出部分隱藏（已解決）

一直使用之前的版本沒有問題，今天在首頁顯示“定位”的地方不能生效，先上程式碼我再說原因 /*文字超出省略*/ { text-overflow: ellipsis; white-space: normal; overflow: hidden; display: -web

小程式填坑之路—input密碼可見與不可見（已解決）

2018年11月5日下午16:45修改：經過在手機上多次真機測試，發現這個方法有問題，在電腦上沒什麼毛病。但在手機上，會出現點選眼睛的小圖示不能夠及時顯示或者隱藏密碼，特此對程式碼進行簡化和修改。  <image class='showIm

小程式填坑之路--自定義模態彈窗（已解決）

信我，這次只講技術！實現效果（點選“更換手機號”，背景變暗，彈出輸入框）：嗯，我懶，就用了上一篇文章小程式填坑之路--彈窗修改手機號後的更新（已解決）的圖。先上wxml的程式碼， <view class="weui-vcode-btn" bindtap="

小程式填坑之路--彈窗修改手機號後的更新（已解決）

在寫之前，我不得不說這是一個小的不能再小的點了，簡直不能是坑，僅是我個人的學藝不精。先上效果圖（將2輸入框的手機號替換掉1輸入框的手機號）：（都是在js檔案裡進行操作）首先在data裡，定義cellPhone=" " data{ cellPhone: ''

python採坑之路1

在list中有如下：列表生成式和* x = [[0]*n]*m y = [[0 for x in range(n)] for y in range(m)] x[0][0] = 1 y[0][0] = 1 print(x) print(y) 結果： [[1, 0, 0, 0]

分享到微信填坑之路

1、註冊了公眾平臺測試賬號，下載了jssdk。而後開始了，生成自定義分享卡片之旅。坑點一：生成簽名的url一定要是當前頁面的url，所以正確的姿勢是：（url一定是從前端傳過來的location.href）　　　　 public function getSignPackage

spring boot整合mybatis-generator的填坑之路

第一步：在pom.xml檔案中新增： <plugin> <groupId>org.mybatis.generator</groupId> <a

Vue 全域性例項，我想單獨在js裡面用（許可權路由的時候或者攔截器時候），填坑之路，

首先我有一個校驗需要用到vue例項 export const rules = { empty: [ (value) => !!value || this.$t('valid.empty'), ], email: [

Web填坑之路（3） --- js驗證碼外掛GVerify

轉載：網路 !(function(window, document) { function GVerify(options) { //建立一個圖形驗證碼物件，接收options物件為引數 this.options = { //預設opti

Web填坑之路（4） --- web server大概解釋

Web Server中文名稱叫網頁伺服器或web伺服器。web伺服器也稱為WWW伺服器，主要功能是提供網上資訊瀏覽服務。 Web伺服器可以解析HTTP協議。當Web伺服器接收到一個HTTP請求，會返回一個HTTP響應，例如返回一個HTML頁面。為了處理一個請求，Web伺服器可以響應一個靜態頁面或圖片，進行頁

前端小白的填坑之路

第一個Java程式 public class HelloWorld { /* 第一個Java程式 * 它將列印字串 Hello World */ public sta

微信小程式填坑之路（三）：佈局適配方案（rpx、px、vw、vh）

因為小程式是以微信為平臺執行的，可以同時執行在android與ios的裝置上，所以不可避免的會遇到佈局適配問題，特別是在iphone5上，因為螢幕尺寸小的緣故，也是適配問題最多的機型，下面就簡單介紹幾種適配方法。 rpx適配 rpx是小程式中

Android Studio填坑之路

Android Studio是個強大Android開發工具，每個新版本的釋出都有帶來新的驚喜和爽快，但是同時也帶來驚嚇和糟糕，這邊文章就是收集開發中遇到的細節問題以及解決方法。解析打包出的Apk沒有versionCode和versionName 開發環境背

Python踩坑之路-Python-3.6 安裝pycrypto 2.6.1各種疑難雜症及解決方案

最近接觸公司後臺管理系統的開發，其中涉及到加密模組pycrypto。重點來了！！！！敲黑板！！！！ pycrypto在PyCharm中跟其他的模組不一樣，pip install pycrypto安裝的是1.4.1版本，然後雖然模組能夠install成功，但

python填坑之路:tesserocr配置

相關推薦