requests和bs4的python爬蟲入門

阿新 • • 發佈：2019-01-29

現在就簡單的講下這幾個月的學習成果嘛~~~
爬蟲其實爬的都是原始碼，然後再通過對原始碼進行過濾，得出我們想要的東西~
有時會需要一些正則的東西~
比如一些文字啊，圖片的src啊，連結的href啊~~
這裡面有一些lazyload的圖片，就需要 selenium webdriver 什麼的了，這個還沒研究到哈，勿噴勿噴。

上面的答案也有提到過，用requests和bs4寫爬蟲真的是傻瓜爬蟲系列。
就是很容易了~~ 但是無論寫什麼程式，都得把文件讀一遍先，個人認為這倆個文件還是很友好的~
requests文件
快速上手 — Requests 2.10.0 文件
BeautifulSoup文件
Beautiful Soup 4.4.0 文件

首先引入這倆模組

from bs4 import BeautifulSoup
import requests

然後要給requests個url，告訴他我要爬取那個url的原始碼，假如就是這個問題的答案把

url = 'https://www.zhihu.com/question/20899988'

有時候還要偽裝個header一起傳給伺服器，
User-Agent 就是瀏覽器版本，cookie就是本地終端上的資料
這兩個開f12 的network 點doc 然後就應該能看得到了

headers = {
    'User-Agent':'',
    'Cookie':''
}

然後就可以用requests進行爬取了

data = requests.get(url, headers=headers)

其實這個data是個response 物件
需要.text一下再交給 bs4

soup = BeautifulSoup(data.text, 'lxml')

之後就能用soup.select 進行選擇了，
要是不會寫selector 最簡單的方法，開f12 右鍵 copy > copy selector
例如我們寫個簡單的獲取圖片的。

imgs = soup.select('div.zm-editable-content > img')

這個soup.select 返回的是一個list，所以你要for in 迴圈一下
比如把它的link都放在一個list裡

img_link = []
for i in imgs:
    img_link.append(i.get('data-actualsrc'))

那麼，我知道了這些link有什麼用啊~~下面我們就可以用urllib.urlretrieve來下載他們了啊！！
如果你爬被反爬的話，還可以引入time 讓程式睡一會

import time
time.sleep(4)

原始碼就在這裡啦~~

requests和bs4的python爬蟲入門

python3爬蟲入門（urllib和requests簡單使用）

python爬蟲入門（二）Opener和Requests

requests和bs4的python爬蟲入門

[Python爬蟲] 在Windows下安裝PhantomJS和CasperJS及入門介紹(上)

【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用

爬蟲入門requests庫疑惑

Python爬蟲入門之五Handler處理器和自定義Opener

python爬蟲入門之————————————————第三節requests詳解

python爬蟲入門(二)：Requests的使用

二、爬蟲入門——requests的基本使用

爬蟲入門系列（二）：優雅的HTTP庫requests

爬蟲入門系列（三）：用 requests 構建知乎 API

爬蟲入門，從第一個爬蟲建立起做蟲師的心，爬蟲的編譯器的安裝，pycharm第三方庫的安裝和pip的安裝，爬蟲的認知篇（5）

爬蟲入門教程之requests，BeautifulSoup庫的介紹以及問題解釋

小白爬蟲入門——爬取圖片和文字（超詳細）

python爬蟲入門（三）XPATH和BeautifulSoup4

Python爬蟲——4.4爬蟲案例——requests和xpath爬取招聘網站資訊

爬蟲小試--用python中requests和urllib模塊爬取圖片

requests 和 scrapy 在不同的爬蟲應用中，各自有什麼優勢？

【爬蟲入門】抓取今日頭條的街拍搜尋頁的圖片，並儲存到資料庫和本地

requests和bs4的python爬蟲入門

相關推薦