python學習（6）：python爬蟲之requests和BeautifulSoup的使用

阿新 • • 發佈：2019-02-20

前言：

Requests庫跟urllib庫的作用相似，都是根據http協議操作各種訊息和頁面。

都說Requests庫比urllib庫好用，我也沒有體會到好在哪兒。

但是，urllib庫有一點不爽的是：urllib.request.urlretrieve(url, localPath)函式在將某些圖片連結儲存到本地時，會出現錯誤：httpError：304 Forbidden

為什麼會出現這個錯誤？查詢網上的說法，大多認為是Header的問題，不過我試了將完整的Header新增進去仍然不行。

本案例用Requests庫替換urllib庫，並用open().write()方法替換掉urllib.request.urlretrieve(url, localPath)方法。

正文：

一，安裝Requests庫

pip3 install requests

安裝後進入python匯入模組測試是否安裝成功

import requests

沒有出錯即安裝成功

二，結合了Requests庫和BeautifulSoup庫的圖片爬蟲程式

'''
    requests,bs4
'''

import os
import requests
from bs4 import BeautifulSoup

def getHtmlCode(url):  # 該方法傳入url，返回url的html的原始碼
    headers = {
        'User-Agent': 'MMozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0'
    }

    r= requests.get(url,headers=headers)
    r.encoding='UTF-8'
    page = r.text
    return page

def getImg(page,localPath):  # 該方法傳入html的原始碼，經過擷取其中的img標籤，將圖片儲存到本機
    if not os.path.exists(localPath): # 新建資料夾
        os.mkdir(localPath)
    soup = BeautifulSoup(page,'html.parser') # 按照html格式解析頁面
    imgList = soup.find_all('img')  # 返回包含所有img標籤的列表
    x = 0
    for imgUrl in imgList:  # 列表迴圈
        print('正在下載：%s'%imgUrl.get('src'))
        ir = requests.get(imgUrl.get('src'))

        # open().write()方法原始且有效
        open(localPath+'%d.jpg'%x, 'wb').write(ir.content)
        x+=1


if __name__ == '__main__':
    url = 'http://www.zhangzishi.cc/20160712mz.html'
    localPath = 'e:/pythonSpiderFile/img8/'
    page = getHtmlCode(url)
    getImg(page,localPath)

python學習（6）：python爬蟲之requests和BeautifulSoup的使用

前言： Requests庫跟urllib庫的作用相似，都是根據http協議操作各種訊息和頁面。都說Requests庫比urllib庫好用，我也沒有體會到好在哪兒。但是，urllib庫有一點不爽的

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

python學習（四）：python變數和函式

python用下劃線作為變數字首和字尾指定特殊變數 _xxx 不能用’from module import *’匯入 __xxx__ 系統定義名字 __xxx 類中的私有變數名核心風格：避免用下劃線作為變數名的開始。因為下劃線對直譯器有特殊的意義，而且是內建

python學習（六）：python中賦值、淺拷貝、深拷貝的區別

存在賦值、淺拷貝、深拷貝問題的資料型別是對組合物件來說，所謂的組合物件就是包含了其它物件的物件，如列表，類例項。其他的單個物件則不存在這個問題。可變物件： list, dict. 不可變物件有: int, string, float, tuple.

python學習（五）：Python類中super()和init()的關係

1.單繼承時super()和__init__()實現的功能是類似的 class Base(object): def __init__(self): print 'Base create' class childA(Base): def __init__(sel

caffe的python介面學習（6）：用訓練好的模型（caffemodel）來分類新的圖片

#coding=utf-8import caffeimport numpy as nproot='/home/xxx/' #根目錄deploy=root + 'mnist/deploy.prototxt' #deploy檔案caffe_model=root + 'mnist/lenet_iter

python函數（6）：內置函數和匿名函數

a20 *args -s 執行 code str 思維導圖 inpu 其他我們學了這麽多關於函數的知識基本都是自己定義自己使用，那麽我們之前用的一些函數並不是我們自己定義的比如說print()，len()，type()等等，它們是哪來的呢？一、內置函數由pytho

Python基礎（6）：字典

dict，可變得資料型別，儲存對映，無序。對映，即為一對一的kye-value鍵值對。 1，字典的定義 d={} #定義空字典 d=dict() #工廠方法

Python學習（七）：生成器表示式（expr for iner_var in iterable if cond_expr）

列表解析：[expr for iter_var in iterable if cond_expr] 生成器表示式：(expr for iter_var in iterable if cond_expr) J = 'aadsjnk' S = 'asadasbxjs

Python學習（6）——面向物件編輯

1、類和例項（1）通過定義一個特殊的__init__方法，在建立例項的時候，就把相關屬性綁上去（2）普通的函式相比，在類中定義的函式第一個引數永遠是例項變數self，並且，呼叫時，不用傳遞該引數（3）和靜態語言不同，Python允許對例項變數繫結任何資料，也就是說，對於兩個例項

標號（6）：python(就業階段)——網路UDP

<1>UDP含義：英文全拼(User Datagram Protocol)簡稱使用者資料報協議，它是無連線的、不可靠的網路傳輸協議 <2>UDP特點：無連線、資源開銷小（udp每個資料包最大是64K）、傳輸速度快、沒有超時重發機制

Pytorch 學習（10）：Python Cython擴充套件（python pyx程式碼-----C 程式碼 ----python程式碼呼叫）

Cython是具有C資料型別的Python，幾乎任何一個Python程式碼都是有效的Cython程式碼。Cython編譯器將把python程式碼轉換成C程式碼，對Python/C API進行等效呼叫。 python程式碼------>C 程式碼 -------&g

機器學習（一）： python三種特徵選擇方法

特徵選擇的三種方法介紹：過濾型：選擇與目標變數相關性較強的特徵。缺點：忽略了特徵之間的關聯性。包裹型：基於線性模型相關係數以及模型結果AUC逐步剔除特徵。如果剔除相關係數絕對值較小特徵後

廖雪峰老師Python學習（2）：字元編碼

字元編碼我們已經講過了，字串也是一種資料型別，但是，字串比較特殊的是還有一個編碼問題。因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位制11

Python學習（1）：基本資料型別

python是一門新興的膠水語言，在國外得到了廣泛的應用。在國外，程式設計基礎課一般會選擇pyhon作為程式語言。在國內，大學程式設計課上使用的語言一開始都是C語言，幾年來也在逐漸往python上轉。python以其簡單易用，函式庫眾多而備受青睞。在機器

機器學習（4）：python基礎及fft、svd、股票k線圖、分形等實踐

本節我們主要簡單介紹機器學習常用的語言–python。樓主本身是寫java的，在這之前對python並不瞭解，接觸之後發現python比java簡直要好用幾千倍。這裡主要通過常用的統計量、fft、股票k線圖及分形等樣例，介紹python的使用及各種包的載入。

python學習（三）：matplotlib學習

前言：matplotlib是一個python的第三方庫，裡面的pyplot可以用來作圖。下面來學習一下如何使用它的資源。一、使用前首先在python中使用任何第三方庫時，都必須先將其引入。即： import matplotlib.pyplot as

linux命令學習（6）：ps命令

bytes 釋放 ice cti width kthread hellip 名稱 pts Linux中的ps命令是Process Status的縮寫。ps命令用來列出系統中當前運行的那些進程。ps命令列出的是當前那些進程的快照，就是執行ps命令的那個時刻的那些進程，如果想要

《Linux學習並不難》Linux常用操作命令（6）：uname命令顯示計算機和系統相關信息

Linux8.6 《Linux學習並不難》Linux常用操作命令（6）：uname命令顯示計算機和系統相關信息使用uname命令可以顯示計算機以及操作系統的相關信息，比如計算機硬件架構、內核發行號、操作系統名稱、計算機主機名等。命令語法： uname [選項] 命令中各選項的

Python基礎（4）：python中的特性入門篇（索引，切片，連線，重複，成員操作符）

在介紹列表的時候發現，有一些特性沒有提前解釋，而穿插在其中又會略顯重複和雜亂，索性在這裡來個總結。接觸python的人不難了解到一個詞：高階特性。其實內容並不高深，因為高階特性的產生，就是為了讓程式碼更簡介。以下先介紹簡單的：索引，切片，連線，重複，成員操作符，以及其應用物件。 &nb

python學習（6）：python爬蟲之requests和BeautifulSoup的使用

前言：

正文：

相關推薦