python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

阿新 • • 發佈：2019-02-04

__author__ = 'AllenMinD'
import requests,urllib,os
from bs4 import  BeautifulSoup

ans = 1 #counting

for page in range(0,43):
    flag = 1 #web exists or not
    if page<10:
        url = 'http://bbs.fengniao.com/forum/pic/slide_101_8903443_8017670'+str(page)+'.html'
    else:
        url = 'http://bbs.fengniao.com/forum/pic/slide_101_8903443_801767'+str(page)+'.html'
    source_code = requests.get(url)
    plain_text = source_code.text

    soup = BeautifulSoup(plain_text,'lxml')

    file_name = ''
    download_link = []
    for pic_tag in soup.find_all('a'):
        if pic_tag.get('href') == '/forum/8903443.html':
            file_name  = pic_tag.get('title')
        if pic_tag.get('class') == ['pictureDownload']:
            if pic_tag.get('href') == '': #if this page is None
                flag = 0
                break
            else:
                download_link.append(pic_tag.get('href'))

    if flag == 0 : #this page is None
        continue

    folder_path = 'D:/spider_things/2016.4.8/' + file_name + '/'

    if not os.path.exists(folder_path):
        os.makedirs(folder_path)

    for item in download_link:
        try:
            urllib.urlretrieve(item,folder_path + str(ans) + '.jpg')
            print 'you have downloaded' , ans , 'pic(s)'
            ans = ans + 1
        except urllib.ContentTooShortError,e: #if the picture is too big , pass it
            continue

這次同樣是爬去蜂鳥網的圖片，但是中途遇到了2個新問題：

1. 空網頁：

蜂鳥網的有些圖片集的圖片連線不是連號的，這時候就要用一個if語句來跳過一些沒有圖片的連線

if pic_tag.get('href') == '': #if this page is None
                flag = 0
                break
.....

if flag == 0 : #this page is None
        continue

2.錯誤處理

爬取這次圖片的時候發現，有些圖片太大了，超出了urllib.urlretrieve方法所規定的範圍，即出現報錯：urllib.ContentTooShortError

這時候，要利用try...except 來處理

try...except的格式是：

try:
    ......
except 錯誤型別(如urllib.ContentTooShortError),e:
    ......

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

python爬蟲（爬取羊車門作業的作業）

程式碼如下 import requests import json import time import os from threading import Timer def getHTML(url): try: r=requests.get(url,t

python 爬蟲（爬取網頁的img並下載）

from urllib.request import urlopen # 引用第三方庫 import requests #引用requests/用於訪問網站（沒安裝需要安裝） from pyquery import PyQuery as pq #引用PyQuery用於解析 # def get_url(

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

Python爬蟲專案--爬取自如網房源資訊

本次爬取自如網房源資訊所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB儲存正文 1.分析目標站點 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2

python爬蟲（爬取彈幕）

一、首先匯入需要的模組 import re import requests 首先匯入這兩個模組，一個是正則需要的模組，因為之後需要用正則來匹配，之後匯入 request 模組，爬取資料需要的模組。二、頁面請求，提取資料 url='https:/

原生爬蟲（爬取熊貓直播人氣主播排名）

show () 字節碼 content see http color open span ‘‘‘‘ This is a module ‘‘‘ import re from urllib import request # 斷點調試 class Spider()

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

python實戰之網路爬蟲（爬取新聞內文資訊）

（1）前期準備：開啟谷歌瀏覽器，進入新浪新聞網國內新聞頁面，點選進入其中一條新聞，開啟開發者工具介面。獲取當前網頁資料，然後使用BeautifulSoup進行剖析，程式碼： import requests from bs4 import BeautifulSoup res = requests.

python實戰之網路爬蟲（爬取網頁新聞資訊列表）

關於大資料時代的資料探勘（1）為什麼要進行資料探勘：有價值的資料並不在本地儲存，而是分佈在廣大的網路世界，我們需要將網路世界中的有價值資料探勘出來供自己使用（2）非結構化資料：網路中的資料大多是非結構化資料，如網頁中的資料都沒有固定的格式（3）非結構化資料的挖掘--ETL：即三個步

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

Python 爬蟲入門-爬取拉勾網實戰

這幾天學習了 python 爬蟲的入門知識，也遇到很多坑，開個貼記錄一下基本原理 Python 爬蟲基本要具備以下功能：（參考此回答）向伺服器傳送請求，伺服器響應你的請求。（你可能需要了解：網頁的基本知識）從抓取到的網頁中提取出需要

Python——網路爬蟲（爬取網頁圖片）

最近在學習 Python，然後就試著寫了一個簡單的Python小程式，爬取一個網頁的圖片，不得不說 Python 真的強大，以下是爬取 NEFU Online Judge 網站的程式碼。吐槽：其實

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

python爬蟲：爬取貓眼電影（分數的處理和多執行緒）

爬取用的庫是requests和beautifulsoup，程式碼編寫不難，主要是個別的細節處理需要注意 1、電影得分的處理右鍵審查元素，我們看到分數的整數部分和小數部分是分開的，在beautifulsoup中，我們可以用（.strings或者.stripped_stri

Python爬蟲（前言）：有趣的一個爬蟲例項（爬取段子，笑話，情感句子）

這次準備介紹Python爬蟲爬取網頁資料、解析並應用於實踐，打算寫幾篇文章，從最基礎的Python爬蟲語法開始介紹爬蟲，步步深入，最終實現一個較完整的例項。這一系列文章包括： request庫介紹及應用。 beautifulsoup庫介紹及應用。正則表示式匹配及應

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

相關推薦